如何提取 PDF 文档中的文字-(备注:文字被转曲线了)

2020-10-18 08:50:32 +08:00
 Myprincess

文档中的文字排版不规则。有没有好的软件推荐。

4271 次点击
所在节点    程序员
37 条回复
rund11
2020-10-18 14:55:36 +08:00
这种复杂文字 ocr 就要用百度,腾讯的识别接口,识别率还是很高的
icyalala
2020-10-18 15:01:37 +08:00
@Myprincess 说的就是这种情况啊,用 ABBYY FineReader 来进行 OCR,识别图片中的文字。你可以设置一个原始字体或者比较接近的中文字体,那样识别率会更高。
user8341
2020-10-18 16:28:58 +08:00
@Porphet 都是 API 吗?有没有不依赖网络的能独立运行的库?
Raynard
2020-10-18 17:21:19 +08:00
office 手机版扫描试试
bamboopainter
2020-10-18 17:21:22 +08:00
打印出来,再用 scansnap 扫成电子版
Myprincess
2020-10-18 17:30:28 +08:00
@Arrowing 试了,全黑色底文字有些识别不了。左右黑色 ,图片不会被切,上下黑,图片会被切掉。其它文字很棒。
miaomiao888
2020-10-18 19:13:01 +08:00
你这帖子中有贴图吗,得看看是哪样的字吧。

可以试试 PandaOCR,里面有 20 来个 OCR 引擎你可以逐个试试看哪个更适合:github.com/miaomiaosoft/PandaOCR

要是过于不规则的字可能要用离线 OCR 自己训练了
Lemeng
2020-10-18 21:16:09 +08:00
有一大堆吧。51 破解?
dabaibai
2020-10-18 22:47:12 +08:00
什么曲线? svg ?
flynaj
2020-10-18 23:01:42 +08:00
qq 带的 OCR Ctrl+ALT+O
dadaslele
2020-10-18 23:20:23 +08:00
在线版本的,图片都能给你抠出来,支持 pdf2word,pdf2ppt 等等
https://easypdf.com/
Pichai
2020-10-19 02:36:07 +08:00
https://smallpdf.com/cn
你试试这个网站,上面有 pdf 转 word 。还有在线编辑 pdf 的。转换之前是每天可以免费使用两次该功能,其他的暂时不清楚。希望能帮到你。
Porphet
2020-10-19 09:07:54 +08:00
@user8341 那估计需要你自己训练一个 ocr 的模型了,现在主流算法都换成神经网络了吧,我是做 nlp 的所有不了解
dany813
2020-10-19 09:28:04 +08:00
@dadaslele 刚转换一个 PDF,排版乱了
user8341
2020-10-19 12:31:35 +08:00
@Porphet 很想知道有没有训练好的,27 楼那个不知道是不是。
Porphet
2020-10-19 15:25:50 +08:00
@user8341 不是、他也是调用 api,训练好的不可能开源吧,实在想用可以去搜搜论文
kasusa
2020-10-19 20:11:12 +08:00
用用 QQ 的 OCR,便捷,免费,在截图功能里面.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/716043

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX