scrapy 如何多开

2016-09-12 14:53:51 +08:00
 ssllff123

用 scrapy 爬几百万的 url ,现在开一个 scrapy 效率有点慢。

考虑如何多开几个 scrapy ,通过分割队列来运行。

现在遇到的情况是 复制原来项目,修改 spider 名字以及 setting 部分设置。 运行报错找不到 spider

仅仅复制原来项目,修改队列。 发现还是原来的 spider

请大家指教下,如何通过分割队列运行 scarpy

2028 次点击
所在节点    问与答
6 条回复
laoyur
2016-09-12 15:18:32 +08:00
把这几百万 url 扔到 redis 里,让爬虫自己来取?
BiggerLonger
2016-09-12 16:08:22 +08:00
試一下把線程數開高一點
facat
2016-09-12 16:16:06 +08:00
爬虫是受网络 i/o 影响大,多开不见得有效果
neosfung
2016-09-12 16:27:56 +08:00
mrytsr
2016-09-12 17:57:05 +08:00
分级的话 内部自动通过 协程多开
ssllff123
2016-09-12 19:05:31 +08:00
好吧 。发现多开并没有提高多少效率。现在能提高效率的应该就是 redis 了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/305676

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX