V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
zzm88104
V2EX  ›  问与答

即使不断变换 ip,一定次数后还是被爬虫检测,应该从哪里排查?(pyppeteer)

  •  
  •   zzm88104 · Oct 18, 2021 · 2122 views
    This topic created in 1665 days ago, the information mentioned may be changed or developed.

    用的是 pyppeteer 框架,测试的是美亚网站,每分钟访问一次,大概 1-5 分钟换一次 ip,20 分钟左右还是会出现验证码页面

    6 replies    2021-10-18 16:44:15 +08:00
    miao666
        1
    miao666  
       Oct 18, 2021   ❤️ 1
    参考谷歌的机器人验证码
    网站会收集你在网站里的鼠标滑行轨迹,点击动作频率,键盘动作等信息
    从而判断你是否为机器人
    xiaoqiao24
        2
    xiaoqiao24  
       Oct 18, 2021   ❤️ 1
    1. ip 的问题,有可能是 ip 在目标服务器已有黑名单记录,导致不能长时间爬取。建议用多个代理商搭建代理池。
    2. 请求参数里面是否包含了有过期失效的参数,例如鼠标轨迹,点击检测等等数据。
    zzm88104
        3
    zzm88104  
    OP
       Oct 18, 2021
    @miao666 确实是完全没有模拟相关的操作,不过他最开始的几十次并不会触发机器人检测。不知道他是怎样把不同 ip 的请求关联起来的?
    zzm88104
        4
    zzm88104  
    OP
       Oct 18, 2021
    @xiaoqiao24 好的,我去检查下请求的参数
    qq316107934
        5
    qq316107934  
       Oct 18, 2021
    @zzm88104 每次请求前 cookies 是空的吗? local storage 一类的确定没被持久化下来数据吗?
    ByteMind
        6
    ByteMind  
       Oct 18, 2021
    cookie,指纹信息,data 参数,这些都会变化
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1544 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 16:39 · PVG 00:39 · LAX 09:39 · JFK 12:39
    ♥ Do have faith in what you're doing.