如何采集大众点评网的千万数据?它有严格的反爬虫措施

2014-01-03 09:38:56 +08:00
 pc10201
没事研究采集,准备拿大众点评网练手
形式如下
http://www.dianping.com/shop/6000000/
http://www.dianping.com/shop/6000001/

shop后面的ID是连续的,范围是1-1500万,当然有许多店铺是不存在的(404错误),实际的店铺数量在700万左右,这里是用的穷举法,当然也可以进入网页按深度索引

遇到一个很严重的问题,就是点评网被爱帮网采集后采取了严格的反爬虫措施。
严格到什么程序,如果一个IP一秒一个进行采集,大概采集500-1000个左右就会出现403错误,IP被冻结了,一段时间后才解封,如果冻结了你不死心,继续大量采,就永久冻结了。

有人可能会说,用代理啊,我测试了淘宝许多家的好多代理,库存号称3000-5000个代理IP,一秒钟内能连接上也就200-800个,还有部分是透明代理。
如果用代理IP,从哪找那么多高质量的代理IP啊?
46523 次点击
所在节点    Python
55 条回复
crny520
2014-01-03 12:27:41 +08:00
@Livid 这就是中国式嘛,想省工人录数据。而且VC和天使都是看数据量和用户量的,不在意清楚你数据那里来的。
sivacohan
2014-01-03 12:30:41 +08:00
@Livid

我抓过58同城的数据。量比较少,大概几千条。
需求的产生是一个朋友去找了一份做理财产品的工作,似乎是做外汇的机构。然后他们的Leader让他们找2000个做金融,理财方面的联系人的电话。
这个数据的意义可能不仅仅是复制一个点评,而是因为点评本身不出售符合某种聚合要求的数据,就导致了这种抓取需求的出现。
wuyadong
2014-01-03 12:33:46 +08:00
我们拿到了点评的全网数据,cookie,代理,抓取间隔,注意这些东西,就能抓到了。
imcj
2014-01-03 12:42:29 +08:00
抓到了以后提供一个公开的API给大家读吧。
binux
2014-01-03 12:52:50 +08:00
@noahzh 按照楼主一个IP能采集1000条数据,点评一共1500w数据计,路由需要换1.5万次IP。
wangtao
2014-01-03 13:28:21 +08:00
尽量模拟用户访问,不让点评觉得你是个机器人。。
YouXia
2014-01-03 13:38:02 +08:00
@binux 求学长分享下好的思路。THX。
phyng
2014-01-03 13:51:56 +08:00
@pirex 你还别说,前段时间我就是这么干的,当然我说的不是抓大众点评
likuku
2014-01-03 14:14:28 +08:00
@wangtao 同意的说~ 既然「这就是中国式嘛,想省工人录数据。而且VC和天使都是看数据量和用户量的,不在意清楚你数据那里来的。」 那么自己作机器人程序完全凭空捏造就好了。
zencoding
2014-01-03 16:52:23 +08:00
伪造蜘蛛也不行吗?那就上Tor
pythoner
2014-01-03 17:00:35 +08:00
建议从移动客户端入手。比如iphone/安卓 app,比如网站手机版
ibolee
2014-01-03 17:17:42 +08:00
不知道你这是个什么情况

之前采集过百度知道。用了一个专属asdl网线,2M,采集被屏蔽后,重启路由器自动获取新IP

如此周而复始,周而复始。。。
yanng
2014-01-03 18:35:46 +08:00
感觉点评的立场已经非常明确了,不让采。为什么还去采呢?别作恶。
dingyaguang117
2014-01-03 19:48:32 +08:00
去年抓过点评美食的几十万POI数据,大概1秒一个,5台服务器一起爬的
the13matrix
2014-01-03 23:00:51 +08:00
不建议楼主买代理,那可能是黑客玩剩的,小心背黑锅。
我有2w只鸡,用i2p控制的,全部开出口代理不难,但速度极慢。5秒一个请求就不错了。
powerfj
2014-01-03 23:47:04 +08:00
很不解,如果一秒钟一个的话,那对于比较大的公司,代理出口上网的话,点评不就上不了了?
underone
2014-01-04 01:37:52 +08:00
点评的开放平台不能满足获取数据的需求吗……
virushuo
2014-01-04 04:21:11 +08:00
@Livid 抓数据通常不会为了复制原站,而是做一些其他用途。比如用来监控上海饭馆新开业数量和倒闭数量什么的,不是很有趣?
Livid
2014-01-04 05:00:38 +08:00
@virushuo 理解了……谢谢
bengol
2014-01-04 08:14:23 +08:00
难道lz不做压力控制?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/95474

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX