Scrapy 爬取数据的时候,有什么 proxy 轮换的机制吗?

2015-05-07 11:16:34 +08:00
 RangerWolf
我司有好几个proxy可以用,但是都不太稳定。
我想的就是假设有n个Proxy,在爬取失败的时候首先自己重试3次。如果重试失败就切换到下一个proxy。如果成功就继续使用当前的proxy,如果失败就一直切换代理直到没有可用的代理。如果最终还是失败了,就以某种方式记录一下,下次重新爬一遍。


不知道我的想法在scrapy之中如何实现?
如果有例子代码就更好了~

最终目的就是保证目标url能被正确的爬出结果。如果有其他更好的解决方案也麻烦说一下~
多谢!
5804 次点击
所在节点    Python
10 条回复
AlloVince
2015-05-07 11:21:31 +08:00
RangerWolf
2015-05-07 11:26:39 +08:00
@AlloVince 非常感谢!正是我需要的!
bengtuo
2015-05-07 11:48:17 +08:00
Scrapy 还是不够好
bengtuo
2015-05-07 11:48:27 +08:00
要写 太多的代码
zts1993
2015-05-07 12:08:24 +08:00
写一个DOWNLOADER_MIDDLEWARES
binux
2015-05-07 12:13:04 +08:00
squid
RangerWolf
2015-05-07 13:28:37 +08:00
@binux 还得自己维护一个squid就太繁重了
RangerWolf
2015-05-07 13:29:19 +08:00
@bengtuo 那有什么推荐的吗?
要写的代码多一点没什么,重要的是能有解决方案。 如果能在网上找到相应的解决方案的代码就更好了
messense
2015-05-07 16:35:37 +08:00
我用的修改自 scrapy-proxies 的 RetryMiddleware,禁用 Scrapy 自带的 RetryMiddleware

https://github.com/messense/douappbook/blob/master/douappbook/middlewares.py#L10
ultimate010
2015-05-09 10:01:09 +08:00
我以前就是把代理ip存到redis中,每次抓取查询换ip,封装下使用很方便。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/189135

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX