寻找一个比较成熟的 OCR 中文训练模型

environment: 一直在做 python，之前没接触机器学习相关项目，然而现在任务有关 ocr 。 what i need: 一个月左右的时间，识别 pdf 中的文字，支持中英文数字即可 what i do: 1.识别 pdf 格式的文本信息（普通的 pdf 都可以轻松做到） 2.针对 pdf 中的图片，或者本身就是扫描文件，进行了 ocr 识别 3.ocr 中，使用 github 开源的 tesseract，和官方的 chi_sim,chi_sim_3 和 chi_tra 包，真实环境识别起来惨不忍睹，所幸已经初步有自己训练的思路（导入常用的汉字，输出各种字体的图片写脚本训练）。 what i want: 希望有经验的朋友帮我分析一下，一个月的时间怎么训练会更快更好，大概能有什么效果。同时，如果有已经成熟的 OCR 解决方案，或已经训练得比较成熟的 traindata 包资源，推荐一下，谢谢大家。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/678550

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.