即使不断变换 ip,一定次数后还是被爬虫检测,应该从哪里排查?(pyppeteer)

2021-10-18 12:42:56 +08:00
 zzm88104

用的是 pyppeteer 框架,测试的是美亚网站,每分钟访问一次,大概 1-5 分钟换一次 ip,20 分钟左右还是会出现验证码页面

1471 次点击
所在节点    问与答
6 条回复
miao666
2021-10-18 13:52:15 +08:00
参考谷歌的机器人验证码
网站会收集你在网站里的鼠标滑行轨迹,点击动作频率,键盘动作等信息
从而判断你是否为机器人
xiaoqiao24
2021-10-18 14:35:34 +08:00
1. ip 的问题,有可能是 ip 在目标服务器已有黑名单记录,导致不能长时间爬取。建议用多个代理商搭建代理池。
2. 请求参数里面是否包含了有过期失效的参数,例如鼠标轨迹,点击检测等等数据。
zzm88104
2021-10-18 14:38:35 +08:00
@miao666 确实是完全没有模拟相关的操作,不过他最开始的几十次并不会触发机器人检测。不知道他是怎样把不同 ip 的请求关联起来的?
zzm88104
2021-10-18 14:59:20 +08:00
@xiaoqiao24 好的,我去检查下请求的参数
qq316107934
2021-10-18 15:16:47 +08:00
@zzm88104 每次请求前 cookies 是空的吗? local storage 一类的确定没被持久化下来数据吗?
perpetually
2021-10-18 16:44:15 +08:00
cookie,指纹信息,data 参数,这些都会变化

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/808516

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX