V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
dick20cm
V2EX  ›  奇思妙想

今天抽空做了个 3-8 位验证码识别模型,发现正确率可以 98%,好奇如果我把这个模型做成 API 服务会有人用么,以及再设计一种对抗识别的算法(类似 recaptcha)

  •  
  •   dick20cm · 2021-05-21 14:54:05 +08:00 · 5503 次点击
    这是一个创建于 1283 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2021-05-23 17:53:23 +08:00
    看来很多小伙伴对这个有兴趣,于是我做了个临时 api 给大家玩:
    http://139.155.177.88/

    这个东西非常消耗资源,所以有请求限制,大概是一分钟以内可以连续请求 5 个,超过限制后会 503 service unavaliable

    大家轻点玩
    36 条回复    2021-05-28 17:11:24 +08:00
    shawnbluce
        1
    shawnbluce  
       2021-05-21 15:04:21 +08:00
    验证码贴两个例子出来看看呐,看看是什么复杂度的
    liprais
        2
    liprais  
       2021-05-21 15:04:59 +08:00   ❤️ 1
    大概率 overfit 了
    cnzjl
        3
    cnzjl  
       2021-05-21 15:13:30 +08:00
    肯定有人用。灰产的
    learningman
        4
    learningman  
       2021-05-21 15:13:42 +08:00
    你是不是忘了咱们是中国人,验证码可以上中文的。。。
    foil2
        5
    foil2  
       2021-05-21 15:15:19 +08:00
    肯定有人用的,
    参考下面👇👇👇这个成熟的打码平台
    http://www.damagou.top/index.html
    Puteulanus
        6
    Puteulanus  
       2021-05-21 15:46:56 +08:00   ❤️ 6
    现在对抗的已经快到人都做不出来的程度了
    https://www.163.com/dy/article/G6CNEFDF0526Q3CJ.html
    westoy
        7
    westoy  
       2021-05-21 15:50:16 +08:00
    会有法律风险吧

    要有哪个大平台被薅狠了走法律程序你肯定是共同被告啊.....
    dick20cm
        8
    dick20cm  
    OP
       2021-05-21 16:45:34 +08:00
    @liprais 没有 overfit,贴个 f1_score 你瞧瞧
    [6] 0.988 [['^', '0.000'], ['0', '0.941'], ['1', '0.976'], ['2', '0.981'], ['3', '0.985'], ['4', '0.985'], ['5', '0.984'], ['6', '0.985'], ['7', '0.967'], ['8', '0.981'], ['9', '0.990'], ['a', '0.988'], ['b', '0.977'], ['c', '0.983'], ['d', '0.964'], ['e', '0.988'], ['f', '0.988'], ['g', '0.992'], ['h', '0.991'], ['i', '0.977'], ['j', '0.982'], ['k', '0.987'], ['l', '0.974'], ['m', '0.985'], ['n', '0.972'], ['p', '0.986'], ['q', '0.988'], ['r', '0.980'], ['s', '0.991'], ['t', '0.982'], ['u', '0.985'], ['v', '0.984'], ['w', '0.985'], ['x', '0.990'], ['y', '0.987'], ['z', '0.985'], ['$', '1.000']]
    dick20cm
        9
    dick20cm  
    OP
       2021-05-21 16:46:02 +08:00
    @learningman 感觉识别中文也可以 95+%
    dick20cm
        10
    dick20cm  
    OP
       2021-05-21 16:46:22 +08:00
    @foil2 可怕,第一次见这种灰产网址
    dick20cm
        11
    dick20cm  
    OP
       2021-05-21 16:46:48 +08:00
    @Puteulanus niub,这种大概是用游戏引擎渲染出来的
    dick20cm
        12
    dick20cm  
    OP
       2021-05-21 16:47:11 +08:00
    @westoy 是,所以只是想法并没有实践
    tfdetang
        13
    tfdetang  
       2021-05-21 16:59:44 +08:00
    只是 3-8 位的数字英文识别大家都做的很成熟了吧,现在用这种验证码的也少了,搞头不大。 以前公司需要有做过英文数字的,还有点选的。点选的稍微难点,但是也不是很难攻克。 不过后来觉得打码平台也不贵,自己做还要花人力维护出机器,实在划不来
    ch1ps79
        14
    ch1ps79  
       2021-05-21 17:28:16 +08:00 via Android
    有网址吗
    yunyuyuan
        15
    yunyuyuan  
       2021-05-21 17:30:33 +08:00
    每次想下载战网打打 OW,就想到了被验证码支配的恐惧,感谢网易帮我戒网瘾
    securityCoding
        16
    securityCoding  
       2021-05-21 17:31:31 +08:00
    @Puteulanus cloudflare 人机检测每次都是找汽车 /自行车 ,还 tm 翻页,太过分了
    dick20cm
        17
    dick20cm  
    OP
       2021-05-21 17:36:10 +08:00
    @ch1ps79 还没做呢,来找大家探讨一下这个东西的实际价值,改天有空我会 publish 出来
    otakustay
        18
    otakustay  
       2021-05-21 18:14:58 +08:00
    @securityCoding 你每一次做这个都成为他们的 AI 的训练素材,老工具人了
    Stain5
        19
    Stain5  
       2021-05-21 18:16:02 +08:00
    一和那些七七八八的验证系统比 recaptcha 真的是我见过最友好的了
    tabris17
        20
    tabris17  
       2021-05-21 18:18:15 +08:00
    @westoy 伪装成普通的 OCR 服务呗
    maemual
        21
    maemual  
       2021-05-21 18:21:46 +08:00
    讲道理普通的中英文数字这些,找个模型训练训练,也不用太高的识别率,失败了换个验证码多试几次,概率就上去了。
    foil2
        22
    foil2  
       2021-05-21 19:04:02 +08:00
    @dick20cm 这种是刚需,挺多人用的。灰产不至于,人家致力于视障人士哈哈哈哈
    herozzm
        23
    herozzm  
       2021-05-21 19:22:37 +08:00 via Android
    支持楼主 我之前用的云打码 倒闭了,没有称手的,好了 M 我一下 我要用
    jeremaihloo
        24
    jeremaihloo  
       2021-05-21 19:50:51 +08:00
    @herozzm 我一直在用图鉴,感觉挺好的
    dick20cm
        25
    dick20cm  
    OP
       2021-05-21 22:31:21 +08:00 via Android
    @maemual 我本来也是这样想的,不过一不小心轻松做到 98%
    ddzzhen
        26
    ddzzhen  
       2021-05-22 09:44:44 +08:00 via Android
    肯定有人用啊,不一定要干坏事
    raycool
        27
    raycool  
       2021-05-22 14:12:01 +08:00
    贴两个图看看验证码的例子是什么样的
    epicSoldier
        28
    epicSoldier  
       2021-05-22 14:15:16 +08:00
    很多通用模型都能达到这个准确率吧,不是太复杂的话
    7gugu
        29
    7gugu  
       2021-05-22 15:15:53 +08:00
    开放出来,让人们离线部署就好了
    dick20cm
        30
    dick20cm  
    OP
       2021-05-23 17:55:06 +08:00
    @shawnbluce @liprais @foil2 @ch1ps79 @ddzzhen @raycool @7gugu
    大哥们轻点,服务器怕痛
    7075
        31
    7075  
       2021-05-25 09:45:36 +08:00
    类似的东西烂大街了吧
    liuky
        32
    liuky  
       2021-05-25 16:01:20 +08:00
    其他网站的验证码准确率太低了
    dick20cm
        33
    dick20cm  
    OP
       2021-05-27 11:11:47 +08:00
    @liuky 哈哈,这就是人工智障,所以我把 api public 然后收集一些大家上传识别的样本,等下一次迭代后,对其他样式的验证码识别率就会提高很多了
    ourongxing
        34
    ourongxing  
       2021-05-27 18:02:52 +08:00
    我现在还记得以前看过一个段子,说验证码识别都是发给印度人工识别的,不知道是不是真的,可能以前技术达不到
    duian
        35
    duian  
       2021-05-27 21:23:49 +08:00
    坐等 publish
    huyi23
        36
    huyi23  
       2021-05-28 17:11:24 +08:00   ❤️ 1
    验证码。。。真的不是门槛,需要的是 google 验证码那种
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   907 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:18 · PVG 04:18 · LAX 12:18 · JFK 15:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.