如何采集大众点评网的千万数据？它有严格的反爬虫措施

没事研究采集，准备拿大众点评网练手
形式如下
http://www.dianping.com/shop/6000000/
http://www.dianping.com/shop/6000001/

shop后面的ID是连续的，范围是1-1500万，当然有许多店铺是不存在的(404错误)，实际的店铺数量在700万左右，这里是用的穷举法，当然也可以进入网页按深度索引

遇到一个很严重的问题，就是点评网被爱帮网采集后采取了严格的反爬虫措施。
严格到什么程序，如果一个IP一秒一个进行采集，大概采集500-1000个左右就会出现403错误，IP被冻结了，一段时间后才解封，如果冻结了你不死心，继续大量采，就永久冻结了。

有人可能会说，用代理啊，我测试了淘宝许多家的好多代理，库存号称3000-5000个代理IP，一秒钟内能连接上也就200-800个，还有部分是透明代理。
如果用代理IP，从哪找那么多高质量的代理IP啊？

colincat

2014-01-04 10:28:47 +08:00

多线程多机器随机延迟5-10秒，通过不断变换IP每采集100个换一次IP，不断重复上述过程，采集需要不断的测试。还有很多策略不宜公开，反正逆向思维，如果你做这些网站如何防范，然后做出对应的策略，基本上没有不能采的站。
吼吼 ~
我发现我对各家的策略都很熟悉了，常年采集各大互联网网站，基本都被我攻陷了~

freewizard

2014-01-04 16:12:58 +08:00

即使不获得任何商业利益，抓取大众点评网站数据明确违反了他们的许可协议
http://www.dianping.com/aboutus/zhishichanquan.html
http://www.dianping.com/aboutus/useragreement
肯定有民事诉讼的风险

同时如在中国境内抓取或提供抓取工具也有触犯刑法修正案（七）的可能。
http://www.gov.cn/flfg/2009-02/28/content_1246438.htm

zack

2014-01-04 20:01:28 +08:00

采集数据这件事情本身真没有什么值得练手的，除非是想研究更尖端的爬虫数据。如果是要做一些数据分析的话，采样一些数据就够了，没必要去钻研那些反抓取的策略，那些东西来来回回也不过就是那几个套路，其实没什么乐趣，也不是什么值得好奇的问题，太多人天天在用粗糙的手法做这样的工作了。

oldcai

2014-01-06 20:42:18 +08:00

@freewizard “提供专门用于侵入、非法控制计算机信息系统的程序、工具，或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具，情节严重的，依照前款的规定处罚。”

抓取好像不算侵入、非法控制

keven

2014-03-23 19:48:17 +08:00

目前貌似只有“云采集”对比较有效，云采集就是利用庞大的云端计算机集群来采集，国内有个八爪鱼采集器，有这种技术，而且还对采集速度有智能调控。

reall3116

2015-01-15 17:56:41 +08:00

@pc10201 楼主最后有什么好的解决方法么？我一直都在用相关的工具来拿电商的评论，被禁掉真是最仁慈的反爬虫策略了…… 就算是每次请求都延迟或者换IP，当数据量相当大的时候时间成本都是不可想象的

dgivan

2016-09-18 15:42:23 +08:00

每一，别一天干掉一个站，慢点爬，设置下载延迟
第二，修改请求头，浏览器
第三，用高质量代理。企业建议用：阿布云代理等等
第四，禁止 Cookie
第五，分布式爬取
可以用下这个代理： http://www.abuyun.com

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/95474

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.