scrapy 的 item 队列把内存挤爆

scrapy 的 spider 抓取了很多 item 然后交给 pipeline, 但是 pipeline 处理的太慢了,我的业务很耗时,但是 spider 还在不停抓取,导致任务积压

我目前打算使用 arq(异步消息框架) spider 抓到的 item 直接扔给 arq,扔之前查看任务队列是否过多,可以暂停发布任务

各位有好的想法吗

Rang666

2025 年 1 月 29 日

内存不够就放硬盘存着？

CaptainD

2025 年 1 月 29 日

无非就几个方法
1. 减缓 item 发布：例如你的方式，或者降低 spider 速度等
2. 增大缓冲区，例如引入新的队列、持久化 pipeline 等
3. 增大 pipeline 处理速度，并发或者异步等

slowgen

2025 年 1 月 30 日

scrapy 出来的时候还没什么 serverless 的概念，都是靠堆机器的方式来增加抓取规模，但是它的 IO 和计算没有分离，必然造成你现在这个局面。
一旦你加入队列来把 IO 和计算分离之后，你会发现你也用不上什么 scrapy 自己的东西了。
除非你的清洗是视频转码之类的众生平等的耗时任务，如果是单纯搞搞字符串之类的，可以使用 cloudflare worker 把计算部分分离出去，甚至把 IO 部分也可以分离出去（ IO 等待不计时，deno deploy 也是）。

mayli

2025 年 1 月 30 日

CONCURRENT_ITEMS

Maerd

2025 年 2 月 8 日

pipeline 处理 item 比抓取还慢？那要考虑你的储存架构设计方式了，自己存东西怎么会比爬慢

如果暂时无法解决，将 item 队列从内存队列换为磁盘队列即可，这样会 spider 在 yield item 的时候，item 会被先序列化到磁盘上，就不占用内存了

还有楼上说的 io 和计算没分离纯属没怎么用过 scrapy

baozaodexiaomila

2025 年 2 月 22 日

理论上 pipeline 这里只做数据存储过程，其他业务相关的东西不应该对抓取的结果进行处理，先将 item 通过 pipeline 存到 mongodb 或者 redis 等数据库中，这里作为原始数据，后续的操作应当在这个数据库上搞一个业务数据库来进行处理，就算不另外搞一个数据库，那么业务操作也应该开启新的进程去单独处理数据

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1108282

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.