亲,怎么优雅的爬取豆瓣东西(dongxi.douban.com)的商品呢?

2014-11-20 19:40:08 +08:00
 jerryge
嗯,如题。可以忽略“优雅”。
4664 次点击
所在节点    Node.js
17 条回复
carmark
2014-11-20 22:27:29 +08:00
加入豆瓣的DBA团队,写个后台程序,自动下载。
joyqi
2014-11-20 22:28:23 +08:00
进入豆瓣机房,记得带上u盘
jerryge
2014-11-20 22:33:29 +08:00
@joyqi
@carmark

32个赞
passluo
2014-11-20 22:38:41 +08:00
其实没多少数据,直接暴力爬很快就爬完了。
lshero
2014-11-20 23:31:47 +08:00
@passluo 我咋感觉过于频繁的访问豆瓣会出现验证码呢?
passluo
2014-11-20 23:36:29 +08:00
@lshero 我乱说的。
却是会,我有时候刷新快了都会。
lshero
2014-11-20 23:38:42 +08:00
@passluo 我是有一天看相册一直不断按着右键结果出现了验证码
xpol
2014-11-21 00:16:10 +08:00
优雅,就是爬一会儿,歇一会儿。两个请求之间加点间隔。同时运行的请求不能太多。比人快就行。
jerryge
2014-11-21 00:18:33 +08:00
@xpol 简单点讲就是找个用电的人来点。
onlyice
2014-11-21 00:29:55 +08:00
带登陆态的 Cookie,带 Refer,用 Scrapy 随机延迟,用大运营商 IP。。
garipan
2014-11-21 00:31:07 +08:00
豆瓣东西实在没啥东西啊
JoeShu
2014-11-21 00:34:29 +08:00
豆瓣东西数据不多,而且更新也没有那么频繁,慢慢抓呗
happywowwow
2014-11-21 01:53:11 +08:00
以前无聊,写过爬小组图片的爬虫
然后爬了<请不要害羞>组的图片
。。。
sleep(1) 1秒一次的请求,就ok了
simplise
2014-11-21 08:58:14 +08:00
@happywowwow 抓得图片呢~~哈哈哈
010blue
2014-11-21 09:34:35 +08:00
可使用深蓝阅读: http://bluereader.org/ 订阅,然后通过http://api.bluereader.org/ 接口同步到自己的站
shawngao
2014-11-21 09:41:34 +08:00
@happywowwow 我也写了个,golang的
happywowwow
2014-11-21 11:50:38 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/148095

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX