scrapy 404

2019-01-05 14:12:33 +08:00
 Ewig
2019-01-05 14:04:50 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340238.htm> (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_16.html)
2019-01-05 14:04:51 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340238.htm>: HTTP status code is not handled or not allowed

抓取 网址的时候 报 404,很多都没有问题,就是个别的出现 404 这是为啥?

网址:
http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index.html
2495 次点击
所在节点    Python
6 条回复
InternetExplorer
2019-01-05 14:19:13 +08:00
别爬了,要被抓起来吃牢饭的
PulpFunction
2019-01-05 15:03:00 +08:00
在线 debug …
whoami9894
2019-01-05 15:09:33 +08:00
论坛在线发贴 debug
liuxu
2019-01-05 15:14:04 +08:00
测试了一下没有啊。。。
2019-01-05 15:13:20 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340238.htm> (referer: None)
j0hnj
2019-01-05 18:29:37 +08:00
真·在线 debug
lsido
2019-01-05 19:56:17 +08:00
你也是厉害,花钱请个人不比你问的强??

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/524128

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX