我自己写了一个爬虫准备抓取英雄联盟每个大区前两百名最强王者的战绩数据做数据分析,我通过抓包找到了查战绩和获取最强王者 id 的接口(要带上 cookie ),但是我的爬虫开 60 个线程请求这些爬虫还不到五分钟就被封了,封的是 QQ 号,不是 IP ,因为我试过用别的小号仍然可以查。这还不是关键,关键是我发现我连我自己战绩都查不了了(当初忘记换小号的 cookie 做测试了)。
现在请求那几个接口返回的都是如下数据
C:\Python27\python.exe D:/request.py
<html>
<head><title>501 Not Implemented</title></head>
<body bgcolor="white">
<center><h1>501 Not Implemented</h1></center>
<hr><center>nginx/1.4.4</center>
</body>
</html>
Process finished with exit code 0
我现在很好奇捞月狗和 max+这类数据分析 app 是怎么抓取的这么多战绩数据?难不成他们有很多 QQ 小号,或者他们直接找腾讯买的数据?
另外问个额外问题,就是捞月狗和 max+的盈利模式是什么啊?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.