V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sponsored by
LinkedIn
不坐班的神仙工作 · 去任何你想去的地方远程,赚一线城市的工资
2000 个不用出门 Social 的全球远程工作,帮助 V2EX 的小伙伴开启全新的工作方式。
Promoted by LinkedIn
eason1874
V2EX  ›  程序员

我的验证码识别:有多少人工就有多少智能

  •  
  •   eason1874 · 2019-10-03 13:19:28 +08:00 · 4368 次点击
    这是一个创建于 1091 天前的主题,其中的信息可能已经有所发展或是发生改变。
    前些日子我有个私人项目需要用到验证码识别,自己本身没有经验,于是找了些开源项目的代码试用,成功率还不错,但验证码在请求频率方面也有限制,也就是说需要写不少异常处理,没经验很难估算需要投入的精力和时间。

    转念一想,我这采集数据也不是一百几十万,也就一万几千而已,对实时性也没高要求,折腾那么多干嘛。简单点,让事情简单点。

    我干脆把几个地方的验证码统一接入到一个页面,就放在本地树莓派,我每天摸鱼啊想放松脑子啊,就打开这个页面机械地输入验证码,不停重复着人肉打码,如果遇到限制了就重新拨号换 IP。

    你别说,还挺有意思的。每次打码更新数据就像进行一种仪式,令我对更新的数据有别样的感情,以前在后台采集的数据我说删就删,如今采集的数据我分外珍惜。

    看到这里你是不少以为我要说我的公众号是多少多少了,并没有,这个账号还没发过贴,纯粹为了水一贴。
    17 条回复    2019-10-08 15:00:58 +08:00
    dawe
        1
    dawe  
       2019-10-03 13:44:40 +08:00 via iPhone
    不是有打码平台么 就是不知道价格怎么样
    eason1874
        2
    eason1874  
    OP
       2019-10-03 13:53:27 +08:00
    @dawe 国外三哥的打码平台才几分钱一个,但小数怕长计。其实用开源代码可以识别大部分了,不用主要是不想写异常处理,自己手动打还可以顺便看一眼数据有没有问题
    wafm
        3
    wafm  
       2019-10-03 13:56:35 +08:00   ❤️ 1
    你用代码识别大部分,失败的扔打码平台去

    不就 OK 了吗?

    我之前做过车牌识别的项目,相机识别失败的就直接扔给 OCR 平台,准确率比现在的停车场不知道高多少了 后面甲方觉得没必要 OCR 识别了 项目就停止了
    eason1874
        4
    eason1874  
    OP
       2019-10-03 14:03:28 +08:00
    @wafm #3 个人项目做着玩,我连服务器都没买,直接本地生成 HTML 传到云存储。现在打码当消遣感觉还不错,将来有必要再接打码平台了。
    ClericPy
        5
    ClericPy  
       2019-10-03 15:09:17 +08:00
    一些不是超大规模抓取, 确实人肉就够了...
    微信公众平台继承了微信一贯的怎么不方便怎么搞的风格(就像 PC 微信一样...), 所以我基本上服务器里就是 headless chrome 访问填入帐号密码, cdp 截到验证码流量(实际上也可以拿到 cookie 二次请求, 我懒得), encode 成 b64 发到服务器上, 一次扫好几个图片还是挺爽的

    以前也搞过搜狗, 用了很多 cookie 漏洞做了长时间伪造身份, 后来漏洞封了, 发现... 小规模的时候就是无脑反爬验证码也不麻烦, 起码不去考虑 safe interval 的估算了...

    我也是无聊水一帖
    eason1874
        6
    eason1874  
    OP
       2019-10-03 15:33:52 +08:00   ❤️ 1
    @ClericPy #5 以前我强迫症很严重,能程序跑的东西坚决不让人工介入,哪怕写程序的时间比人工操作的时间还要多。

    后来我看到一些企业发家史说,他们业务刚开始的时候,很多功能其实只是在前端可以用户自助操作,后端实际配置还是技术手动搞的,显示的配置生效时间其实是给技术客服手动配置的时间。

    慢慢的我心态就不一样了,业务能跑起来是第一位,自动化的改进后面根据发展需要再去搞了。
    ClericPy
        7
    ClericPy  
       2019-10-03 15:35:26 +08:00   ❤️ 1
    健忘症 强迫症 拖延症三症齐得, 则天下无敌矣
    @eason1874
    simoncos
        8
    simoncos  
       2019-10-03 17:10:49 +08:00
    你多打一点训练数据不就又有了
    lneoi
        9
    lneoi  
       2019-10-03 18:30:11 +08:00
    验证码不就是要实时性吗,这一次标注的数据下一次又不能重复用,除非当做训练数据来弄
    eason1874
        10
    eason1874  
    OP
       2019-10-03 18:39:07 +08:00
    @simoncos #8 验证码准确率只是一方面,还有一方面是目标站点请求频率限制,目标站点用了加速乐,你刷新快一点就要验证码了,加速乐验证码有几种,比较难处理。


    @lneoi #9 不是,我是说对采集的数据没有实时性要求,不是说验证码。
    ochatokori
        11
    ochatokori  
       2019-10-03 18:47:58 +08:00 via Android
    你人工打也有打错的时候啊,异常处理还是要写的
    eason1874
        12
    eason1874  
    OP
       2019-10-03 19:21:21 +08:00
    @ochatokori #11 也要写,不过不用提前写,先直接抛出来,遇到一个再处理一个
    CommandZi
        13
    CommandZi  
       2019-10-03 23:30:16 +08:00
    「有多少人工就有多少智能」我还以为说另外一件事~
    diggerdu
        14
    diggerdu  
       2019-10-04 09:35:17 +08:00 via iPhone
    标好的验证码可以存下来 日后要上模型也比较方便
    eason1874
        15
    eason1874  
    OP
       2019-10-04 11:17:37 +08:00
    @CommandZi #13 你是说这件事?

    宣传:整合 ASR、TTS、NLU 多项人工智能技术的智能服务机器人
    实际:由后台人工座席控制的变音喇叭机器人
    eason1874
        16
    eason1874  
    OP
       2019-10-04 11:18:58 +08:00
    @diggerdu #14 我没这个水平哈,这方面我是纯粹的脚本小子,资料怎么说就怎么弄
    zhaishunqi
        17
    zhaishunqi  
       2019-10-08 15:00:58 +08:00
    人工智能没毛病。。。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4351 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 09:17 · PVG 17:17 · LAX 02:17 · JFK 05:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.