现在验证码/文字识别有没有成熟方案?

2016-11-01 14:57:25 +08:00
 tumbzzc




这是百度 idlocr 识别验证码的结果,不是太令人满意

也有可能是噪点太多的原因。。

4817 次点击
所在节点    程序员
39 条回复
mrlawrence
2016-11-01 16:08:14 +08:00
网赚项目里边,最稳定和基础的项目就是打码,其次是页游。
如果楼主需要一定的正确率和性价比,还是外包给打码平台吧。机器自学习也好,各种技术运用也罢。对于打码平台的肉眼熟练工来说,人肉打码都是最佳的。
就好像富士康用机器人代替人力一样,很多熟练工在低价的时候,就是优势。
tSQghkfhTtQt9mtd
2016-11-01 18:17:48 +08:00
@hansnow
@helloccav reCAPTCHA ?
GreatMartial
2016-11-01 19:02:28 +08:00
那应该做个人肉打码的平台呀...
分分钟走向人生巅峰
TaMud
2016-11-01 19:45:28 +08:00
打码兔太坑
打码兔识别率并不高
从其机制来看,举例,如果是 4 位的码
其应先机器认别,如果出来的结果是 4 位的,不管对错,他都会扣钱,他认为,他是对的,如果你纠正,会扣你的双倍钱,其纠错上面有说明
如果不是 4 位的,这时想是人工识别,正确率就很高。

如果是 ts 可以认别,并有很高的识别率,还是直接 ts 识别,打码兔会坑的很
20150517
2016-11-01 19:51:55 +08:00
@TaMud 有反馈接口的,你可以反馈错误,然后这一条就不扣钱了
zpf124
2016-11-01 19:53:39 +08:00
@tumbzzc 你别说,曾经有个网游的自动刷怪挂机脚本还就是你这思路,把无人操作时遇到的验证码转发给在线的其他人。
windfarer
2016-11-01 19:55:13 +08:00
这个图简单啊,先 opencv 把噪点去掉,然后二值化并切分成单个字母,用 tesseract 逐个识别就行
YingJie
2016-11-01 23:03:46 +08:00
用过次世代验证码识别,其实最高效的还是用打码平台
maze1024
2016-11-01 23:38:50 +08:00
很早很早以前,互联网上流行一个软件,输一个验证码出一个不可描述的图片。。。
USCONAN
2016-11-02 02:57:51 +08:00


我就順路問問去年更新的這個 reCAPTCHA 黑科技是不是依然無解?
txlty
2016-11-02 04:41:44 +08:00
楼主图里的验证码,可以完美识别。但不是什么 ocr 算法,而是专门针对此的验证码破解算法。这种简单的验证码,编写针对性的算法,准确率超过 90%,教程网上就有。
也有专业的软件用来生成算法。只要你会用,图里那种低级验证码都能搞定。


至于你想要的通用识别算法。。就是随便一个网站的验证码,不经任何处理,丢进去,然后就出精准的文字。。。这也是大家梦寐以求的。
等哪一天,这算法真的出现,而且开源免费发布,个人 PC 就跑得动。。。。

那时候网上也就看不到验证码了。
tcsky
2016-11-02 09:06:01 +08:00
@txlty 同用的这个软件. 一般验证码基本都能过了.
dai269619118
2016-11-02 09:24:35 +08:00
@txlty 求分享软件名
bobchengbin
2016-11-02 09:32:33 +08:00
rainysia
2016-11-02 09:34:55 +08:00
这.. 楼上都没玩过网游吗. 网游里面为了防挂机, 防刷作的验证的. 都有专门的外挂 配合识别软件.

大概按照识别难度和题量来收费的
比如四位汉字就比纯数字贵几倍

具体参考 火眼答题, 好爱答题... 全是人工的.
likuku
2016-11-02 11:41:00 +08:00
@pagict [对方就是采取众包把图片发给后台人员人工识别了]人力突厥,国内都是这样干的吧...

最近被小米推起来的 讯飞 不知是这么搞的,机器学习?或者是更高级的众包平台?
likuku
2016-11-02 11:43:05 +08:00
记得亚马逊很早也推出过人力 API ,后段都是一群人来做事,就是针对当前机器解决不了的问题, API 使用价格也不是太贵。
shell233
2016-11-02 12:01:19 +08:00
题主如果想花点功夫的话办法倒是挺多。第一种前面也讲到了,降噪切割,上 svm 或者 netual network 。你这个验证码没有粘连也没有干扰线什么的还是比较好切的。第二种基于端对端的 ocr 识别,前面的楼层也讲到了找出生成这个验证码的算法,但是如果你可以找到生成验证码的算法还是推荐直接上 deep learing ,自动生成样本跑出 10W 的样本如果运气好一些收敛了还是能跑出模型的,识别率基本在 95%以上,见 https://zhuanlan.zhihu.com/p/21344595 。其实验证码复杂到一定程度再花时间和精力就得不偿失了,也许你花一个星期日了验证码,别人再花了两个星期改了验证码......这时候如果不是基于学习的目的的话,还是上打码平台算了,不然两方的程序员都会搞到吐血哈哈。
cppgohan
2016-11-30 16:01:04 +08:00
R9 @tumbzzc
你的想法, reCAPTCHA 很早就在做了吧, 利用大数据概率来判断用户输入是否正确. 最后的大数据又来帮助真正的识别车牌, 识别图书.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/317094

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX