寻找一个比较成熟的 OCR 中文训练模型

2020-06-04 13:19:27 +08:00
 DaguguJ

environment: 一直在做 python,之前没接触机器学习相关项目,然而现在任务有关 ocr 。 what i need: 一个月左右的时间,识别 pdf 中的文字,支持中英文数字即可 what i do: 1.识别 pdf 格式的文本信息(普通的 pdf 都可以轻松做到) 2.针对 pdf 中的图片,或者本身就是扫描文件,进行了 ocr 识别 3.ocr 中,使用 github 开源的 tesseract,和官方的 chi_sim,chi_sim_3 和 chi_tra 包,真实环境识别起来惨不忍睹,所幸已经初步有自己训练的思路(导入常用的汉字,输出各种字体的图片写脚本训练)。 what i want: 希望有经验的朋友帮我分析一下,一个月的时间怎么训练会更快更好,大概能有什么效果。同时,如果有已经成熟的 OCR 解决方案,或已经训练得比较成熟的 traindata 包资源,推荐一下,谢谢大家。

1295 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/678550

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX