寻找一个比较成熟的 OCR 中文训练模型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1676 天前的主题，其中的信息可能已经有所发展或是发生改变。

environment: 一直在做 python，之前没接触机器学习相关项目，然而现在任务有关 ocr 。 what i need: 一个月左右的时间，识别 pdf 中的文字，支持中英文数字即可 what i do: 1.识别 pdf 格式的文本信息（普通的 pdf 都可以轻松做到） 2.针对 pdf 中的图片，或者本身就是扫描文件，进行了 ocr 识别 3.ocr 中，使用 github 开源的 tesseract，和官方的 chi_sim,chi_sim_3 和 chi_tra 包，真实环境识别起来惨不忍睹，所幸已经初步有自己训练的思路（导入常用的汉字，输出各种字体的图片写脚本训练）。 what i want: 希望有经验的朋友帮我分析一下，一个月的时间怎么训练会更快更好，大概能有什么效果。同时，如果有已经成熟的 OCR 解决方案，或已经训练得比较成熟的 traindata 包资源，推荐一下，谢谢大家。

目前尚无回复

OCR PDF what 识别