[求助] Python 读取电子发票 PDF 文件数据缺失

2020-01-14 14:14:55 +08:00
 BryceBu

我用 pdfplumber 之类的库读取文件,仅能读到一点点数据

用 pdf2image 转化成图片就是下面这样 👇

在线 PDF 转 IMG 倒是完整的数据,可是不符合使用要求

我怀疑是不是因为签名啥的,因为用 WPS 打开的时候有提示来着 👇

请问有没有解决办法?

3705 次点击
所在节点    Python
9 条回复
xiri
2020-01-14 14:38:01 +08:00
pdf 对信息自动化处理来说简直是噩梦🙃
EricInBj
2020-01-14 14:39:02 +08:00
应该有错误输出的,大概率是字体缺失?
BryceBu
2020-01-14 15:11:34 +08:00
@EricInBj 感谢 我发现没解析出来的字体都是 STSong-Light

我在网上下载了这个字体然后安装,结果都是华文宋体???

然后再读取 PDF 结果还是缺失的
PopRain
2020-01-14 15:25:46 +08:00
我觉得是类库不支持嵌入字体
Rorysky
2020-01-14 15:26:39 +08:00
pymupdf 试试
BryceBu
2020-01-14 17:15:10 +08:00
刚刚在 Ubuntu 上试了一下,可以识别了

我下载的 STSong-light 字体文件都不能安装

看来原因还是 Windows 不支持这个字体?
huaxie1988
2020-07-09 17:54:57 +08:00
为什么我 windows 和 centos 都读不出来中文
BryceBu
2020-07-14 12:00:01 +08:00
@huaxie1988 #7 先用工具识别出 pdf 的字体,再查你的系统支不支持这个字体
aec4d
2020-07-14 12:01:39 +08:00
先用工具把 PDF 文件标准化(比如内嵌字体),在用商业 PDF 软件尝试编辑,如果商业 PDF 软件能编辑你想要的文本,说明这个文本可以程序解析,并不是一张图片
接下来就是用这种工具 https://github.com/pdfminer/pdfminer.six 读取文本

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/637793

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX