请教一个 TesseractOCR 训练识别验证码问题

2017-10-18 09:22:41 +08:00
 qwertty01

是使用 3.05 版本进行训练的,训练了大约有 500 张图片。疑问是:400 张训练出的 traineddata 文件是 300 多 KB,500 张还是 300 多 KB,而且还少了几 KB,为什么呢? 然后识别率也不见提高? 还有就是有大佬知道 TesseractOCR4.0 怎么训练吗?(我看了官方文档,看的很懵逼)

1779 次点击
所在节点    问与答
2 条回复
2ME
2017-10-18 09:29:20 +08:00
500 张 traineddata 300KB 是没问题的 如果是复杂的干扰比较多的验证码需要先预处理 二值化 文字分割等一些操作 减少图片复杂度后再进行训练识别才会有效果
qwertty01
2017-10-18 09:36:46 +08:00
@2ME 我已经二值化了,然后比较复杂的验证码过滤掉了。文字分割是 Tesseract 做的(当然需要自己手工调),我还是继续训练吧,看看 1000 张怎么样

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/398522

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX