markgor
300 天前
做个日志吧....
看看分配到 10 台机,每次请求返回的时长是多少,整体完成时间是多少......
先找出耗时的点。
另外确定下是不是对方根据 IP 限速,这部分可以根据上面的测试结果判断,如果每台机实际 QPS 都是 100 ,那可能对方是根据 IP 限制了 QPS ,这个时候上代理池。
1 、测试对方是否限制 QPS ;
2 、测试对方根据什么限制 QPS ?[IP/token/cookies....]
3 、如果能 100%确定对方是没限制 QPS 的话,看看时间消耗在哪里了,这个根据服务器监控和埋点的日志基本可以分析出来。
4 、如果确定对方限制 QPS ,根据限制策略进行调整,如限制单 IP 的 QPS 为 100 ,那[每 100 个地址,就用一个代理 IP] = 1 次任务。
不过说真的,并发 8000 ,不止你们去爬,这访问量挺恐怖的...
有没有一种可能,同行爬取的方式和你们不同,即对方可能一次请求返回所有,而你们没发现只能一个个爬呢?