如何采集大众点评网的千万数据?它有严格的反爬虫措施

2014-01-03 09:38:56 +08:00
 pc10201
没事研究采集,准备拿大众点评网练手
形式如下
http://www.dianping.com/shop/6000000/
http://www.dianping.com/shop/6000001/

shop后面的ID是连续的,范围是1-1500万,当然有许多店铺是不存在的(404错误),实际的店铺数量在700万左右,这里是用的穷举法,当然也可以进入网页按深度索引

遇到一个很严重的问题,就是点评网被爱帮网采集后采取了严格的反爬虫措施。
严格到什么程序,如果一个IP一秒一个进行采集,大概采集500-1000个左右就会出现403错误,IP被冻结了,一段时间后才解封,如果冻结了你不死心,继续大量采,就永久冻结了。

有人可能会说,用代理啊,我测试了淘宝许多家的好多代理,库存号称3000-5000个代理IP,一秒钟内能连接上也就200-800个,还有部分是透明代理。
如果用代理IP,从哪找那么多高质量的代理IP啊?
46523 次点击
所在节点    Python
55 条回复
raincious
2014-01-04 09:27:46 +08:00
@Livid 很明显这是被504弄怕了。
colincat
2014-01-04 10:28:47 +08:00
多线程 多机器 随机延迟5-10秒,通过不断变换IP每采集100个换一次IP,不断重复上述过程,采集需要不断的测试。还有很多策略不宜公开,反正逆向思维,如果你做这些网站如何防范,然后做出对应的策略,基本上没有不能采的站。
吼吼 ~
我发现我对各家的策略都很熟悉了,常年采集各大互联网网站,基本都被我攻陷了~
colincat
2014-01-04 10:30:53 +08:00
@Livid 这些数据很有用的,可以做大数据分析,我采这些都是用来做hadoop分析的,要不哪来那么多数据呢。。。
freewizard
2014-01-04 16:12:58 +08:00
即使不获得任何商业利益,抓取大众点评网站数据明确违反了他们的许可协议
http://www.dianping.com/aboutus/zhishichanquan.html
http://www.dianping.com/aboutus/useragreement
肯定有民事诉讼的风险

同时如在中国境内抓取或提供抓取工具也有触犯刑法修正案(七)的可能。
http://www.gov.cn/flfg/2009-02/28/content_1246438.htm
zack
2014-01-04 20:01:28 +08:00
采集数据这件事情本身真没有什么值得练手的,除非是想研究更尖端的爬虫数据。如果是要做一些数据分析的话,采样一些数据就够了,没必要去钻研那些反抓取的策略,那些东西来来回回也不过就是那几个套路,其实没什么乐趣,也不是什么值得好奇的问题,太多人天天在用粗糙的手法做这样的工作了。
doublleft
2014-01-05 11:44:26 +08:00
@chens 好方法
oldcai
2014-01-06 20:42:18 +08:00
@freewizard “提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。”

抓取好像不算侵入、非法控制
freewizard
2014-01-07 02:39:34 +08:00
@oldcai “采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”
oldcai
2014-01-07 11:16:43 +08:00
@freewizard 受教。
lazybios
2014-02-15 17:58:30 +08:00
@pc10201 怎么研究啊 用什么抓apk的包
pc10201
2014-02-15 18:12:36 +08:00
keven
2014-03-23 19:48:17 +08:00
目前貌似只有“云采集”对比较有效,云采集就是利用庞大的云端计算机集群来采集,国内有个八爪鱼采集器,有这种技术,而且还对采集速度有智能调控。
duyaofei
2015-01-12 10:38:40 +08:00
@pc10201 楼主,有采集到没,或者有什么解决的思路不
reall3116
2015-01-15 17:56:41 +08:00
@pc10201 楼主最后有什么好的解决方法么?我一直都在用相关的工具来拿电商的评论,被禁掉真是最仁慈的反爬虫策略了…… 就算是每次请求都延迟或者换IP,当数据量相当大的时候时间成本都是不可想象的
dgivan
2016-09-18 15:42:23 +08:00
每一,别一天干掉一个站,慢点爬,设置下载延迟
第二,修改请求头,浏览器
第三,用高质量代理。企业建议用:阿布云代理等等
第四,禁止 Cookie
第五,分布式爬取
可以用下这个代理: http://www.abuyun.com

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/95474

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX