我的验证码识别:有多少人工就有多少智能

2019-10-03 13:19:28 +08:00
 eason1874
前些日子我有个私人项目需要用到验证码识别,自己本身没有经验,于是找了些开源项目的代码试用,成功率还不错,但验证码在请求频率方面也有限制,也就是说需要写不少异常处理,没经验很难估算需要投入的精力和时间。

转念一想,我这采集数据也不是一百几十万,也就一万几千而已,对实时性也没高要求,折腾那么多干嘛。简单点,让事情简单点。

我干脆把几个地方的验证码统一接入到一个页面,就放在本地树莓派,我每天摸鱼啊想放松脑子啊,就打开这个页面机械地输入验证码,不停重复着人肉打码,如果遇到限制了就重新拨号换 IP。

你别说,还挺有意思的。每次打码更新数据就像进行一种仪式,令我对更新的数据有别样的感情,以前在后台采集的数据我说删就删,如今采集的数据我分外珍惜。

看到这里你是不少以为我要说我的公众号是多少多少了,并没有,这个账号还没发过贴,纯粹为了水一贴。
4970 次点击
所在节点    程序员
17 条回复
dawe
2019-10-03 13:44:40 +08:00
不是有打码平台么 就是不知道价格怎么样
eason1874
2019-10-03 13:53:27 +08:00
@dawe 国外三哥的打码平台才几分钱一个,但小数怕长计。其实用开源代码可以识别大部分了,不用主要是不想写异常处理,自己手动打还可以顺便看一眼数据有没有问题
wafm
2019-10-03 13:56:35 +08:00
你用代码识别大部分,失败的扔打码平台去

不就 OK 了吗?

我之前做过车牌识别的项目,相机识别失败的就直接扔给 OCR 平台,准确率比现在的停车场不知道高多少了 后面甲方觉得没必要 OCR 识别了 项目就停止了
eason1874
2019-10-03 14:03:28 +08:00
@wafm #3 个人项目做着玩,我连服务器都没买,直接本地生成 HTML 传到云存储。现在打码当消遣感觉还不错,将来有必要再接打码平台了。
ClericPy
2019-10-03 15:09:17 +08:00
一些不是超大规模抓取, 确实人肉就够了...
微信公众平台继承了微信一贯的怎么不方便怎么搞的风格(就像 PC 微信一样...), 所以我基本上服务器里就是 headless chrome 访问填入帐号密码, cdp 截到验证码流量(实际上也可以拿到 cookie 二次请求, 我懒得), encode 成 b64 发到服务器上, 一次扫好几个图片还是挺爽的

以前也搞过搜狗, 用了很多 cookie 漏洞做了长时间伪造身份, 后来漏洞封了, 发现... 小规模的时候就是无脑反爬验证码也不麻烦, 起码不去考虑 safe interval 的估算了...

我也是无聊水一帖
eason1874
2019-10-03 15:33:52 +08:00
@ClericPy #5 以前我强迫症很严重,能程序跑的东西坚决不让人工介入,哪怕写程序的时间比人工操作的时间还要多。

后来我看到一些企业发家史说,他们业务刚开始的时候,很多功能其实只是在前端可以用户自助操作,后端实际配置还是技术手动搞的,显示的配置生效时间其实是给技术客服手动配置的时间。

慢慢的我心态就不一样了,业务能跑起来是第一位,自动化的改进后面根据发展需要再去搞了。
ClericPy
2019-10-03 15:35:26 +08:00
健忘症 强迫症 拖延症三症齐得, 则天下无敌矣
@eason1874
simoncos
2019-10-03 17:10:49 +08:00
你多打一点训练数据不就又有了
lneoi
2019-10-03 18:30:11 +08:00
验证码不就是要实时性吗,这一次标注的数据下一次又不能重复用,除非当做训练数据来弄
eason1874
2019-10-03 18:39:07 +08:00
@simoncos #8 验证码准确率只是一方面,还有一方面是目标站点请求频率限制,目标站点用了加速乐,你刷新快一点就要验证码了,加速乐验证码有几种,比较难处理。


@lneoi #9 不是,我是说对采集的数据没有实时性要求,不是说验证码。
ochatokori
2019-10-03 18:47:58 +08:00
你人工打也有打错的时候啊,异常处理还是要写的
eason1874
2019-10-03 19:21:21 +08:00
@ochatokori #11 也要写,不过不用提前写,先直接抛出来,遇到一个再处理一个
CommandZi
2019-10-03 23:30:16 +08:00
「有多少人工就有多少智能」我还以为说另外一件事~
diggerdu
2019-10-04 09:35:17 +08:00
标好的验证码可以存下来 日后要上模型也比较方便
eason1874
2019-10-04 11:17:37 +08:00
@CommandZi #13 你是说这件事?

宣传:整合 ASR、TTS、NLU 多项人工智能技术的智能服务机器人
实际:由后台人工座席控制的变音喇叭机器人
eason1874
2019-10-04 11:18:58 +08:00
@diggerdu #14 我没这个水平哈,这方面我是纯粹的脚本小子,资料怎么说就怎么弄
zhaishunqi
2019-10-08 15:00:58 +08:00
人工智能没毛病。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/606131

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX