爬虫时有什么办法处理滑块验证等验证方法吗

178 天前
 pureGirl
6535 次点击
所在节点    程序员
58 条回复
marcolin18
178 天前
1. 在 github 上有很多基于 playwright 的滑动验证的实现,你可以看一下找找思路;
2. 如楼上 @Motorola3 所说,结合 LLM 来处理,prompt 提示类似 “这是一张验证码图片,请帮助识别验证码类型并给出基于 XXX 的解决代码。图片的 base64 编码如下 {base64_image}”,约束解决方案,比如返回一段基于 playwright 的代码,加载环境运行。这个方案要做的丝滑可能需要打通比较多的步骤,没有基础和时间可以做了解即可。
daysv
178 天前
@JohnYep 做过,不麻烦, 下面 ocr 识别文字, 上面先定位坐标,再切图,再处理,再识别, 之后再比对。
还有一种是成语之类的, 就是先获取 4 个文字,然后统一多条件查找词典,找到后按权重最高的进行顺序点击。
marcolin18
178 天前
@silencelixing 你给的 prompt 的问题,你要遵循一些原则。 给它完整的图片,包含验证码要求,要求它输出解决代码示例。
JohnYep
178 天前
@daysv #22 有类似的案例吗
firefox12
178 天前
服务器端是如何验证你的滑动操作的? 有人说下吗?这个是关键啊。
daysv
178 天前
@JohnYep 只能说生产在运行,3 次内基本都能成功
ZnductR0MjHvjRQ3
178 天前
@silencelixing 你这种可以直接找第三方 看你这个验证码大概率是国内平台了 国内有很多平台做的 我之前用过的是极验好像
LieEar
178 天前
@firefox12 我之前了解的是校验滑动的距离,还有些高级的会校验轨迹(人手滑动的不是匀速)
evan9527
178 天前
有没有这种生意?把全世界的各种真人验证集合在一起,雇人一天 8 小时就是做各种真人验证。
xuminzhong
178 天前
滑块验证 算是比较简单一种,我们已经有处理过几个这样的网站,抖音、京东、小红书都行,
成功率在 95%以上,反而重试 1 、2 次肯定能成功。

现在在搞文字和图像识别的类型,这 2 类感觉比较难。
silencelixing
178 天前
@marcolin18 #23 #23 能给一个成功的例子/prompt 吗 就针对楼里面的这张验证码
JohnYep
178 天前


@daysv #26 试了一下感觉步骤还是有点繁琐

1 、先识别最底下的四个汉字 [音,过,读,饭]
2 、将上面的图片切片成小方块,缩小方块范围动态控制例如 [50*50]
3 、识别小方块是否有汉字,有就找出对应的坐标,依次找出 [音,过,读,饭]
4 、重复第二步骤改变切割的方块大小 [35*40] ,重新切重新识别
5 、反复 2 、3 、4 流程直到找到所有的汉字以及对应的坐标结束流程

感觉这样频繁调用 ocr 有点费 orc
forty
178 天前
滑块的,一般是先录制几百个手工轨迹。
顺序点击几个文字的,ai 识别目前也不是很理想.

我遇到 X 的验证,出个题,给几个答案图,要你选择正确的答案。题目和答案图是基于模板随机生成的。
比如,题目:选择有 3 个石头的图,答案图里是石头混合其它物品,其中 1 个图里的石头刚好 3 个就是你要选的。
pkoukk
178 天前
@evan9527 十年前就有,给游戏工作室的挂机脚本过验证的
Wyearn
178 天前
@JohnYep #11 这个可以通过大模型训练,可以自动选择的。
shiny
178 天前
现在人机识别也有不少基于机器学习的。变成了 AI 大战
daysv
178 天前
@JohnYep ocr 服务自己的随便调,另外定位文字坐标不需要 ocr , 定位好了后才切片 ocr 。
zzl22100048
178 天前
@JohnYep #11 这种匹配类的验证码用 目标检测+相似度,不要把它当文字
yumizhao888
178 天前
这些都是钱,搞定了搞成接口给别人调用,以前是 1000 个 10 块钱左右。
marcolin18
178 天前
@silencelixing 我好像回不了图片和太长的文字,v 站新号。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1044170

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX