请问 scrapy 出现 failure 的时候，如何执行 close_spider

2018-01-25 23:18:45 +08:00

360safe

最近用 scrapy，因为网站限制，经常抓到一定数量的时候出现：

2018-01-25 23:12:42 [scrapy.core.scraper] ERROR: Error downloading <GET https://XXX.com/id=139988706>: [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]

IP 被限制了，这时 scrapy 会继续的去尝试抓取剩下的页面，耗费时间
我是想如果发现这种情况，就主动发起 close_spider，结束抓取。
请问大婶们，该在哪里进行配置？

yield scrapy.Request(url,self.parse_item) ——这里可以吗？如何配置？

4343 次点击

所在节点

Python

7 条回复

zhijiansha

2018-01-25 23:24:29 +08:00

关注

rabbbit

2018-01-25 23:28:07 +08:00

raise CloseSpider()

ChenJinluo

2018-01-26 00:31:16 +08:00

scrapy.Request()有个参数 errback。比如 scrapy.Request(self.url, self.parse, errback=self.handle_error, dont_filter=True) ，当出现错误时就会调用 handle_error()这个函数，在里面关爬虫就可以了。具体用法可以去官方文档看 Requests and Responses 一节，也可以通过搜索框搜索 errback。

cz5424

2018-01-26 01:01:36 +08:00

同意楼上，也可以加一个中间件结束

OldPanda

2018-01-26 06:24:28 +08:00

三楼和四楼正解，我想补充一下另一个角度的解决方案，就是用代理。之前我买过[这家]( https://scrapinghub.com/crawlera)的代理，很好用，与 scrapy 的集成度也高，这是一个简单教程： https://support.scrapinghub.com/support/solutions/articles/22000188399-using-crawlera-with-scrapy，从来没有被封过，缺点是有点贵，最便宜的也要 25 刀一个月。

不过我在网上看到有这样一个 scrapy 的代理中间件： https://github.com/aivarsk/scrapy-proxies，需要自己做一些工作，比如去搜集一些免费的代理等等。我没用过这个中间件，不清楚是否好用，但代理既然是免费的，所以质量嘛。。凭楼主自己权衡了 :)

toono

2018-01-26 08:40:54 +08:00

赞同 5 楼的积极解决问题的方案

360safe

2018-01-27 08:29:23 +08:00

收到，谢谢大家。
通过大家的回复，我学习到了，自己对 scrapy 的了解仅仅是点，应该好好学习官方文档形成一个大的知识面。

5 楼的方案之前用过，因为价格原因，大大超出了预算。（我要抓取的数据是千万级反复过滤）

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/426007

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.