Python 分布式的一点小疑问

2018-01-24 10:59:47 +08:00
 Codewj

经常有人建议在 settings.py 中不使用 ITEMS_PIPLINES 里的 RedisPipline,这样提提高性能,可是如果这样做的话,分布式的意义在哪里,下次获取数据没有一个共有的数据库获取了

3096 次点击
所在节点    Python
12 条回复
Codewj
2018-01-24 13:34:15 +08:00
有大佬可以帮忙解释一下吗
wizardoz
2018-01-24 13:38:44 +08:00
一脸蒙蔽的进来,一脸蒙蔽的走了
yangzhezjgs
2018-01-24 13:45:40 +08:00
问题都没说清楚。。。
Codewj
2018-01-24 13:51:01 +08:00
@wizardoz 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么
Codewj
2018-01-24 13:51:17 +08:00
@yangzhezjgs 关于通过 redis_scrapy 实现分布式爬虫里有个配置,redispipline,如果不配置将不会生成 item 到 redis 中,一般都不配置,为了提高爬取存储性能,所以问题是不配置导致不存储,那分布式的意义是什么
Codewj
2018-01-24 13:52:01 +08:00
或者说不配置的话,分布式体现在哪里
ilovebaicai
2018-01-24 15:38:32 +08:00
这个是存储数据的配置,需要。不过你可以将生成的 item 存储到任何地方:mysql,hbase,文件一类,当然也包括存到 redis。分布式并不是体现配置 ITEMS_PIPLINES,分布式是体现爬虫共享 redis 队列。
Codewj
2018-01-24 22:44:25 +08:00
@ilovebaicai 理解了,谢谢哥
beforeuwait
2018-01-25 11:34:45 +08:00
分布式应该体现在队列或者消息框架上,数据并不一定要放在一起啊
Codewj
2018-01-25 12:14:53 +08:00
@beforeuwait 谢谢🙏
zyy1245367562
2018-01-28 10:57:24 +08:00
所谓分布式其实就是人多好干活儿,通过队列利用多台机器来提高抓取速度,获取的数据如何存放,不是其根本要解决的痛点。
Codewj
2018-01-29 09:19:41 +08:00
@zyy1245367562 戳到痛处了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/425481

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX