现在验证码/文字识别有没有成熟方案?

2016-11-01 14:57:25 +08:00
 tumbzzc




这是百度 idlocr 识别验证码的结果,不是太令人满意

也有可能是噪点太多的原因。。

4817 次点击
所在节点    程序员
39 条回复
pagict
2016-11-01 15:04:45 +08:00
之前我司用 tesseract-ocr ,想着自己做训练。哪想识别效果太差,买了别人的服务。一问,对方就是采取众包把图片发给后台人员人工识别了。。。。 sigh
tumbzzc
2016-11-01 15:08:10 +08:00
@pagict 哈哈哈,尴尬
helloccav
2016-11-01 15:10:27 +08:00
@pagict 人肉识别其实也算是成熟方案了,有很多平台提供人肉识别服务以及 API ,当然都是收费的
lishunan246
2016-11-01 15:11:34 +08:00
试试先 decay 去掉噪点
WhyAreYouSoSad
2016-11-01 15:12:06 +08:00
对对对,我最近也好奇这个,人工识别。那成本呢?
@helloccav 怎么盈利
helloccav
2016-11-01 15:14:23 +08:00
@WhyAreYouSoSad 你指的是验证码平台盈利吗? 例如出售给你每识别一个码收 2 分钱,然后招人的时候每人肉打一个码付 1 分钱,那平台就赚 1 分钱了
WhyAreYouSoSad
2016-11-01 15:15:40 +08:00
@helloccav ....找人一个一分钱???录入时间?还是有一种很厉害的录入工具,识别脑电波啥的?
helloccav
2016-11-01 15:19:18 +08:00
@WhyAreYouSoSad 不是说笑的,真的有人肉打码的平台,打码的工钱按验证码的难度区分,好像是几分钱吧。
全国各地很多学生、家庭嘱咐、无业游民等守在电脑前抢着打码呢。
tumbzzc
2016-11-01 15:20:18 +08:00
@helloccav 其实有个想法,假设我自己有个网站,然后当我用到验证码的时候,就随机给一个在线的网友强制打开验证码,让其输入之后才能继续浏览。。
当然,用户体验会变差 23333
WhyAreYouSoSad
2016-11-01 15:20:46 +08:00
@helloccav 看来我是有点何不食肉糜的感觉了
murmur
2016-11-01 15:23:06 +08:00
@WhyAreYouSoSad 手打码很成熟了 这个你真做不过专业的打手
某些网站的验证码我自己看 4 个能认出来一个就不错了。。你还想用软件识别
helloccav
2016-11-01 15:23:30 +08:00
@tumbzzc 据说 google 的验证码和你这个想法有点相似,话说 google 进行某个项目的 ocr 识别的时候有些图片用机器识别不清楚,所以就把这些图片作为邮箱登录等验证码让用户去识别……以上纯属听说。
ooxxcc
2016-11-01 15:23:51 +08:00
@WhyAreYouSoSad 网吧会有一堆年轻人 /老太太一边看电视剧一边输入验证码

对了,手头还有一个平台 dama2.com 的 400 块钱的题分,便宜转卖。。
Sylv
2016-11-01 15:26:24 +08:00
@WhyAreYouSoSad 我之前用过一家,按他们的介绍所说,雇佣的打码员很多是不方便从事其它工作的残疾人士,还有网上兼职的学生,另外是和免费软件的开发者合作,提供 SDK 植入到免费软件中,用户每次使用软件需要输入验证码,其实就是在帮忙打码。
WhyAreYouSoSad
2016-11-01 15:27:56 +08:00
@helloccav 验证码识别 p2p 。。。。这个可以的。
skyworker
2016-11-01 15:32:12 +08:00
@WhyAreYouSoSad 打吗平台有 API, 通过 API 发送至打吗平台的客服那里,客服输入,然后 API 回调获取打吗结果.

目前国内人工居多, 不用啥 NB 的算法,就靠人眼
ihciah
2016-11-01 15:35:30 +08:00
去噪,投影切图,丢 svm 可解
hansnow
2016-11-01 15:56:57 +08:00
@helloccav 谷歌会把机器生成的验证码和自己的系统识别不了的图像(如谷歌街景之类的拍到的东西)拼接在一起让用户去输入,由于有前面一段机器生成的验证码做验证,后面一段图像的识别率就有了保证。相当于用户免费帮忙识别验证码了
boter
2016-11-01 15:59:03 +08:00
打码兔,听说年营收千万
撸羊毛的人很多用
chaichaichai
2016-11-01 16:07:39 +08:00
人工打码速度还行,价格也不贵
写一个神经网络的方轮子真不如找这种平台

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/317094

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX