Scrapy active_size 大小持续增长问题咨询

2018-03-08 17:22:20 +08:00
 xiudou
我的理解 engine.scraper.slot.active_size 是 engine.scraper.slot.active 中的抓取器处理的响应大小。
但是用 telnet 查看爬虫时发现 engine.scraper.slot.active 一直是 0,但是 engine.scraper.slot.active_size 的值确越来越大。
有没有哪位朋友碰到过这种情况呢?想咨询下造成这种问题的原因。
谢谢
1500 次点击
所在节点    Python
1 条回复
xiudou
2018-03-19 11:26:29 +08:00
做个结帖。
这个问题的原因是:出于某种原因,我们在处理 response 时,替换了 body,导致最后 scraper 减去的 response 的 size 于了下载器下载的大小。当出现较多处理时,会当值 active_size 超过了 5M 的阈值。会造成爬虫一直卡住,不处理下一个请求。
这个问题一般也不会出现,大家可以忽略。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/436214

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX