scrapy 在爬虫的时候有的网址 偶尔出现 404 如何解决?

2019-01-05 13:31:06 +08:00
 Ewig
2019-01-05 10:34:15 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340245.htm> (referer: http://www.csrc.gov.cn/pub/newsite/ xxpl/yxpl/index_9.html)
3916 2019-01-05 10:34:15 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340245.htm>: HTTP status code is not handled or not allowed
3917 2019-01-05 10:34:21 [csrc][scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340247.htm> (referer: http://www.csrc.gov.cn/pub/newsite/ xxpl/yxpl/index_9.html)
3918 2019-01-05 10:34:28 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340246.htm> (referer: http://www.csrc.gov.cn/pub/newsite/ xxpl/yxpl/index_9.html)


网址: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index.html

有的页面偶尔出现 404 这种如何解决 参数都加上了
1773 次点击
所在节点    问与答
3 条回复
dreasky
2019-01-05 18:00:45 +08:00
用 scrapy 的 retry 中间件, 改配置文件 retry 错误码和 retry 次数就行
Ewig
2019-01-06 15:57:08 +08:00
@dreasky 我单独写了一个 py 需要继承吗
Ewig
2019-01-06 16:06:11 +08:00
@dreasky 我本来自己写了一个中间件把自带的给 over 了,但是现在还是先用原生的,我想问一下这个 retry 的间隔可以设置吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/524113

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX