如何提取 PDF 文档中的文字-(备注:文字被转曲线了)

2020-10-18 08:50:32 +08:00
 Myprincess

文档中的文字排版不规则。有没有好的软件推荐。

4271 次点击
所在节点    程序员
37 条回复
jarry777
2020-10-18 09:19:01 +08:00
OCR
Myprincess
2020-10-18 09:25:45 +08:00
@jarry777 ocr 能扫出来吗?这个是说明书。每个字体都是独立的。并且排版很乱。都不在一条直线上。
yiXu
2020-10-18 09:48:42 +08:00
@Myprincess 试试不要钱的 ocr,我一般电脑的用福昕,手机用白描(免费有次数限制)。其他的也有很多,都试试吧,正确率啥的,一般字是正的,不是奇形怪状,应该都还好,付费的话,应该会提高正确率,但是可能也就那样吧
jedicxl
2020-10-18 09:49:05 +08:00
有什么说明书会排版乱到文字识别都不行的程度?
那还不如找个非扫描版的说明书来的快了
gcyrn
2020-10-18 09:49:50 +08:00
Adobe Acrobat
yiXu
2020-10-18 09:50:11 +08:00
简单方便的小软件的话,天若 ocr 文字识别,免费的,电脑的。收费的是开通功能,但是这个功能是可以调用付费接口,而接口是自己申请的,清楚了再付费。
Myprincess
2020-10-18 09:55:07 +08:00
@gcyrn 不行,试了。动不了。一个字都动不了。
jdhao
2020-10-18 09:57:23 +08:00
有没有样张看一下?
lichdkimba
2020-10-18 09:59:38 +08:00
量小的话手打出来可能最快。。
icyalala
2020-10-18 11:33:03 +08:00
ABBYY FineReader,可以设置原始字体来扫描
DreamSpace
2020-10-18 11:55:23 +08:00
pdf 是一种描述文本书写方式的格式。如果很确定需要处理的是文字而非图片,那可以尝试用 pdf 相关的库解析一下
yihaomizhijia
2020-10-18 12:11:05 +08:00
找个人力成本低的人手打就是了。上万字另说。
Myprincess
2020-10-18 12:11:49 +08:00
@jdhao
@DreamSpace
@icyalala
文字是被转为图片了。无法改动。用 PDF 软件打开,单字都无法复制。
tees
2020-10-18 12:13:26 +08:00
你这个只能 ocr 了
dsg001
2020-10-18 12:48:50 +08:00
天若 5.0,免费,使用百度接口,只要不太过分,识别率还行
Gathaly
2020-10-18 13:42:50 +08:00
投影法更正
user8341
2020-10-18 14:02:01 +08:00
天若、福昕都是完整的软件。有没有可用在程序里的 OCR 库?
Porphet
2020-10-18 14:06:46 +08:00
腾讯开放的 ocr,优图 ocr,还有其他像阿里百度都有免费的 ocr,准确度很高
Arrowing
2020-10-18 14:13:05 +08:00
我前几天也在找,找了很多个试了,发现这个识别率还可以,不过还是不满足我的要求,你可以试试看。
https://zhcn.109876543210.com
RioDoubleD
2020-10-18 14:32:26 +08:00
上个图看看,abbyy 可以调图片弯曲

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/716043

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX