Scrapy 爬取数据的时候，有什么 proxy 轮换的机制吗？

2015-05-07 11:16:34 +08:00

RangerWolf

我司有好几个proxy可以用，但是都不太稳定。
我想的就是假设有n个Proxy，在爬取失败的时候首先自己重试3次。如果重试失败就切换到下一个proxy。如果成功就继续使用当前的proxy，如果失败就一直切换代理直到没有可用的代理。如果最终还是失败了，就以某种方式记录一下，下次重新爬一遍。

不知道我的想法在scrapy之中如何实现？
如果有例子代码就更好了~

最终目的就是保证目标url能被正确的爬出结果。如果有其他更好的解决方案也麻烦说一下~
多谢！

5842 次点击

所在节点

Python

10 条回复

AlloVince

2015-05-07 11:21:31 +08:00

https://github.com/aivarsk/scrapy-proxies

RangerWolf

2015-05-07 11:26:39 +08:00

@AlloVince 非常感谢！正是我需要的！

bengtuo

2015-05-07 11:48:17 +08:00

Scrapy 还是不够好

bengtuo

2015-05-07 11:48:27 +08:00

要写太多的代码

zts1993

2015-05-07 12:08:24 +08:00

写一个DOWNLOADER_MIDDLEWARES

binux

2015-05-07 12:13:04 +08:00

squid

RangerWolf

2015-05-07 13:28:37 +08:00

@binux 还得自己维护一个squid就太繁重了

RangerWolf

2015-05-07 13:29:19 +08:00

@bengtuo 那有什么推荐的吗？
要写的代码多一点没什么，重要的是能有解决方案。如果能在网上找到相应的解决方案的代码就更好了

messense

2015-05-07 16:35:37 +08:00

我用的修改自 scrapy-proxies 的 RetryMiddleware，禁用 Scrapy 自带的 RetryMiddleware

https://github.com/messense/douappbook/blob/master/douappbook/middlewares.py#L10

ultimate010

2015-05-09 10:01:09 +08:00

我以前就是把代理ip存到redis中，每次抓取查询换ip，封装下使用很方便。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/189135

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.