Python 的 pytesseract+tesseract-ocr 识别验证码很弱啊

2018-06-06 17:36:35 +08:00
 wsds

这几个都没法识别

只能纯数据,而且不加干扰的,才能识别

6904 次点击
所在节点    Python
7 条回复
Leigg
2018-06-06 17:54:02 +08:00
reself
2018-06-06 18:20:30 +08:00
这个本来就是要根据具体场景去训练模型的
jatesun
2018-06-06 18:28:06 +08:00
这种验证码可能需要训练吧
summerwar
2018-06-06 18:32:34 +08:00
训练模型
RicardoScofileld
2018-06-06 19:24:28 +08:00
说实话 我刚研究了这玩意一段时间,优化主要就在两方面,你先对图片进行一下预处理,作用很大,比如说二值化一下,这样干扰因素会少一些,然后你再对这种图片进行训练生成字体文件,放到 tessdata 中,tesseract 训练方法网上很多,你可以找一下,反正我是失败了,我在生成四个文件的时候会出错 也没招到原因,你可以试一试
RicardoScofileld
2018-06-06 19:25:37 +08:00
再补一发,文字倾斜也会有影响,你爬的数据量不大,还是去调云打码这些平台的接口吧
wsds
2018-06-08 19:37:15 +08:00
@RicardoScofileld
还不知道怎么通过打码平台调用,回去看看😁

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/460944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX