有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

2020-07-31 22:24:53 +08:00
 iwukong
有什么办法将 PDF 里的报表抓取出来,整理成 excel 的

比如披露易里的抓取 pdf 的报表
2674 次点击
所在节点    程序员
20 条回复
redeemer1001
2020-07-31 22:34:04 +08:00
没有现成的话,找个 pdf 解析库呗…参考 pdf 格式规范…
Adobe PDF file specification document available from Adobe website: “PDF Reference, Sixth Edition, Adobe Portable Document Format Version 1.7 November 2006”[http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf]. It is an intimidating 1310 pages document. I would strongly recommend reading Chapter 4 Graphics and sections 5.2 and 5.3 of the Text chapter 5.
摘自 https://www.codeproject.com/Articles/570682/PDF-File-Writer-Csharp-Class-Library-Version-1-26
shiny
2020-07-31 22:58:00 +08:00
做过上教所和深交所的 pdf 解析入库,转文字后,正则匹配或者关键词匹配都比较容易实现。麻烦的地方是同类型报表虽然格式固定,但总有公司没有把格式写的完完全全一样。
要是数据项第三方库有,用第三方的更省事,比如 tushare
ladypxy
2020-07-31 23:01:16 +08:00
Word 打开 pdf,直接复制到 excel
gladuo
2020-07-31 23:37:33 +08:00
jumpshen
2020-07-31 23:44:41 +08:00
正好也在查这方面的资料
whileFalse
2020-08-01 10:04:29 +08:00
OCR 试试?
0ranger
2020-08-01 10:29:41 +08:00
白描 ocr 据说可以,不过我没成功
whi147
2020-08-01 11:15:33 +08:00
最近就在做这方面的代码,c++库有 mupdf 、xpdf,python 库有 pymupdf 、pdfplumber
whi147
2020-08-01 11:16:30 +08:00
还有 wxexcel
hwlhwlxyz
2020-08-01 11:17:00 +08:00
如果不是图片的话,我用过 tabula,还挺好用的,不知道你的格式是什么样子的。https://github.com/tabulapdf/tabula
heguangyu5
2020-08-01 12:08:47 +08:00
mupdf +1

mupdf 是个 c 库,还有很不错的文档,自身还带了几个实用工具,做格式转换、文字、图片、字体提取都很好用。
dayeye2006199
2020-08-02 08:20:13 +08:00
iwukong
2020-08-03 22:02:43 +08:00
@dayeye2006199 这的花多少钱
iwukong
2020-08-03 22:11:55 +08:00
@jumpshen 找到了吗
iwukong
2020-08-03 22:12:44 +08:00
@ladypxy 1 万份咋办
ladypxy
2020-08-03 22:23:56 +08:00
@iwukong python 写个程序自动调用 word 啊,网上大把代码
iwukong
2020-08-03 22:26:51 +08:00
@whi147 成功了吗 那些数据网站如何做的 wind chioce 理杏仁等
dayeye2006199
2020-08-04 12:03:56 +08:00
@iwukong 每月前 1000 页免费。1 百万页以下$1.5 每千页
whi147
2020-08-04 12:16:42 +08:00
@iwukong 工作代码不易公开,成功是肯定成功的,你就看下我用的几个库,自己也能摸索出来
iwukong
2020-08-04 22:03:50 +08:00
@dayeye2006199 关键我是想要的是
1.自动抓取网上的
2.自动入库
他这个只是每一个一个抓取吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/694744

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX