V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nexo
V2EX  ›  Google

我们输入 Google 验证码的时候 是不是在为它训练图像识别模型?

  •  
  •   nexo · 2021-01-20 13:13:21 +08:00 · 3970 次点击
    这是一个创建于 1437 天前的主题,其中的信息可能已经有所发展或是发生改变。

    感觉每次 google 验证码里的图片大多为交通灯、巴士、斑马线、树木等等路上物体 是不是谷歌在利用验证码来训练他的模型 间接来应用到 Google 地图、汽车自动驾驶等等领域 有时点击正确也会说选错 猜想大多人都输入同一个错误时 就会矫正它自己的模型?

    21 条回复    2021-02-07 13:58:50 +08:00
    miku831
        1
    miku831  
       2021-01-20 13:19:47 +08:00   ❤️ 2
    https://b23.tv/0Qy0zt
    视频有提到
    whitehack
        2
    whitehack  
       2021-01-20 13:25:04 +08:00
    别的验证码不知道. google 的肯定是的
    mokeyjay
        3
    mokeyjay  
       2021-01-20 13:27:24 +08:00
    你好,是的,这已经是个公开的秘密了
    今年 6 月起谷歌相册不再无限空间,小道消息表示这也是因为谷歌已经训练够了
    tiramice
        4
    tiramice  
       2021-01-20 13:28:46 +08:00
    不然你以为 Google 为啥要收购 reCAPTCHA ?
    promise365
        5
    promise365  
       2021-01-20 14:25:07 +08:00
    肯定啊
    faceRollingKB
        6
    faceRollingKB  
       2021-01-20 14:40:07 +08:00
    这就有个问题了,验证码肯定是有标准答案的,用户点击提交的答案用来做什么呢?对比 ai 跟人哪个正确率更高么?
    Aaralyn
        7
    Aaralyn  
       2021-01-20 14:43:10 +08:00
    这又不是啥新鲜事,微软 CEO 发布会都吐槽过。
    bruce00
        8
    bruce00  
       2021-01-20 14:54:30 +08:00
    很早以前的单词验证码就是在训练,两个单词,其中一个是能被机器识别的用于验证,另一个是还未能被识别的,将用户的输入作为参考。现在的 reCAPTCHA 应该也是这个原理
    pkoukk
        9
    pkoukk  
       2021-01-20 15:05:41 +08:00   ❤️ 3
    @faceRollingKB 了解一下 reCAPTCHA 的原理。
    假设图案一共 9 副,让你选出带有汽车的图像。
    其中有 3 副 google 是知道答案的,剩下 6 副不知道,如果那 3 副你答对了,系统会认为你剩下 6 副也答对了
    那 6 副的数据就可以训练算法
    nexo
        10
    nexo  
    OP
       2021-01-20 16:22:06 +08:00
    @Aaralyn
    @promise365 但是这样搞经常很不准 体验很差
    1462326016
        11
    1462326016  
       2021-01-20 16:26:52 +08:00
    @pkoukk 我记得貌似剩下的六个会进行多个人交叉验证,也就是说这六个图像有十个(或者其他数字)人认为它是汽车,谷歌才会把它认定为汽车,因为谷歌会出错,单个人也会出错,但是好多个人同时出错的几率就很小了,人数越多越准确。
    jdhao
        12
    jdhao  
       2021-01-20 16:37:31 +08:00 via Android
    @nexo 大数据,一个人不准,但是奈何谷歌用户大,多数用户的选择可以认为是正确的标签,不用要求 100% 完美,只要大部分时候正确就行了
    Sapp
        13
    Sapp  
       2021-01-20 16:39:00 +08:00
    @faceRollingKB 其实不一定的,我点验证码就发现过有些我点错了还过了
    juded
        14
    juded  
       2021-01-20 16:39:19 +08:00
    是,所以我每次都故意点错一两个。
    boris93
        15
    boris93  
       2021-01-20 16:40:35 +08:00 via Android
    @faceRollingKB 并不是
    有一段时间,验证码图像是书上扫描下来的一句话
    Google 不确定 OCR 结果完全正确,就放到验证码上,我们输验证码的时候就在帮 Google 确认和纠正 OCR 结果
    faceRollingKB
        16
    faceRollingKB  
       2021-01-20 17:08:08 +08:00
    @boris93 楼上有人提到的一部分已知一部分未知的验证码,利用已知部分进行验证、未知部分用于训练的说法还说得过去,不过你说的这种我觉得就很难实践了
    CEBBCAT
        17
    CEBBCAT  
       2021-01-20 17:47:37 +08:00
    楼主还是挺厉害的,我不是嘲讽,独立发现这一事实真的挺厉害
    boris93
        18
    boris93  
       2021-01-20 17:56:45 +08:00 via Android
    @faceRollingKB 曾经确实有这件事来着,协助 Google 把书籍数字化的项目
    LZSZ
        19
    LZSZ  
       2021-01-20 17:58:08 +08:00
    @faceRollingKB 用在自动驾驶上面
    no1xsyzy
        20
    no1xsyzy  
       2021-01-21 11:34:00 +08:00
    @boris93 @faceRollingKB 书籍电子化是 reCAPTCHA 公益(?)项目原本的用途……
    然后 Google 收购了,逐渐搞成现在这个样子
    LinusXu
        21
    LinusXu  
       2021-02-07 13:58:50 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2789 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:37 · PVG 21:37 · LAX 05:37 · JFK 08:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.