Scrapy 的 RetryMiddleware 不生效,求教

2019-02-03 23:31:26 +08:00
 warcraft1236

按照惯例,我先贴出来代码

class CustomerRetryMiddleware(RetryMiddleware):
    """
        去掉了一些判断,增加了 log
    """

    def process_response(self, request, response, spider):
        if response.status in self.retry_http_codes:
            retries = request.meta.get('retry_times', 0) + 1
            reason = response_status_message(response.status)
            spider.logger.warn('下载中收到错误 http code:{0},丢入重试,第{1}次重试'.format(reason, retries))
            return self._retry(request, reason, spider) or response
        else:
            return response

    """
        去掉了 EXCEPTIONS_TO_RETRY 判断,无脑重试
    """

    def process_exception(self, request, exception, spider):
        retries = request.meta.get('retry_times', 0) + 1
        spider.logger.warn('下载中收到:{0},丢入重试,第{1}次重试'.format(exception.reasons, retries))
        return self._retry(request, 'CustomerRetryError', spider)

    def _retry(self, request, reason, spider):
        retries = request.meta.get('retry_times', 0) + 1

        retry_times = self.max_retry_times

        if 'max_retry_times' in request.meta:
            retry_times = request.meta['max_retry_times']

        stats = spider.crawler.stats
        if retries <= retry_times:
            spider.logger.debug("Retrying %(request)s (failed %(retries)d times): %(reason)s",
                                {'request': request, 'retries': retries, 'reason': reason},
                                extra={'spider': spider})
            retryreq = request.copy()
            retryreq.meta['retry_times'] = retries
            retryreq.dont_filter = True
            retryreq.priority = request.priority + self.priority_adjust

            if isinstance(reason, Exception):
                reason = global_object_name(reason.__class__)

            stats.inc_value('retry/count')
            stats.inc_value('retry/reason_count/%s' % reason)
            return retryreq
        else:
            stats.inc_value('retry/max_reached')
            spider.logger.warn('超过重试次数,停止重试')

process_response 方法主要是为了加一点 log process_exception 方法是为了出现任何 Exception 都能重试 同样,重写 _retry 方法也是为了加点 log

我遇到的问题是,如果我 settings.py 中设定了 5 次重试,那么,log 中一定只打印第 6 次重试的 log,前 5 次的 log 并没有打出来,我很疑惑,求解答

另外,我为了去除次数的问题,我还改配置改到 100 次,然而 log 中只打印第 101 次重试,然后就是 _retry 方法中的 else 语句的 log "超过重试次数,停止重试"

3672 次点击
所在节点    Python
8 条回复
meik2333
2019-02-04 00:09:24 +08:00
现在手机没法调试代码,scrapy 的下载异常记得有两种情况来着:

- 下载失败(超时等等)
- 下载成功但状态码不对( 40x,50x 等等)

process_exception 应该是下载失败才会触发(当然也有可能我记错了,好久不用了已经)
meik2333
2019-02-04 00:11:16 +08:00
还有一个你 if 里面 logger 是 debug,else 里面是 warn,如果 settings 里面改了 log_level 的话可能会看不到。
warcraft1236
2019-02-04 09:38:29 +08:00
@meik2333 if 里边的是 Scrapy 的代码,我没有改,但是经过你的提醒,我终于发现我确实看不到 log,因为我配置的 loglevel 是 warn,多谢
warcraft1236
2019-02-04 09:45:13 +08:00
@meik2333 我发现,我爬取了一批视频,总是有几个下载报 403,然而我手动打开这个视频是正常的。 我有 headers 中 random UA 和 X-Forwarded-For,不知道是不是因为下载太多被封了
meik2333
2019-02-04 11:21:04 +08:00
@warcraft1236 403 一般来说是触发反爬了
warcraft1236
2019-02-04 18:28:13 +08:00
@meik2333 我重新试了一下,我上边这段代码确实打印不出来 if retries <= retry_times: 判断里边的 log

重新看了一下,发现

```
INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'New91Crawler.middlewares.CustomerRetryMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']

```

我自定义的 retry 和 Scrapy 自带的 retry 都加载了,理论上不应该用我的覆盖系统的吗?
meik2333
2019-02-04 18:35:43 +08:00
@warcraft1236 你可以看看 settings 里面的优先级,记得是数值越低的越先执行,系统自带的 retry 优先级好像是 550。

我只知道如何让自己的先执行,如何覆盖掉确实不知道了。
warcraft1236
2019-02-04 21:46:18 +08:00
@meik2333 我自己的是 200,但是感觉还是先走的系统的,重试了之后才走的我的,奇怪

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/532912

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX