2019-01-05 14:04:50 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET
http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340238.htm> (referer:
http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_16.html)
2019-01-05 14:04:51 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404
http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340238.htm>: HTTP status code is not handled or not allowed
抓取 网址的时候 报 404,很多都没有问题,就是个别的出现 404 这是为啥?
网址:
http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index.html
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/524128
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.