PDF 查看是正常中文,复制或转 html 出来内容就是乱码,有办法将之转成正常的中文字符吗?

2021-04-08 10:33:12 +08:00
 puduhe1
原因在于 PDF 内存储的是特殊字体

字体文件在这儿:
https://github.com/kefengzhang/alibaba_copy/blob/master/0.ttf

在打开 PDF 看到是:账号 这两个字,选中复制出来是:衠뚽

然后我用 wps 打开,他提供了一个功能 pdf 转 excel,或以转出正常的中文字符



除了 OCR 视别,还有别的方式转换吗?
773 次点击
所在节点    程序员
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/768965

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX