Python 分布式的一点小疑问

经常有人建议在 settings.py 中不使用 ITEMS_PIPLINES 里的 RedisPipline,这样提提高性能，可是如果这样做的话，分布式的意义在哪里，下次获取数据没有一个共有的数据库获取了

wizardoz

2018-01-24 13:38:44 +08:00

一脸蒙蔽的进来，一脸蒙蔽的走了

Codewj

2018-01-24 13:51:01 +08:00

@wizardoz 关于通过 redis_scrapy 实现分布式爬虫里有个配置，redispipline，如果不配置将不会生成 item 到 redis 中，一般都不配置，为了提高爬取存储性能，所以问题是不配置导致不存储，那分布式的意义是什么

Codewj

2018-01-24 13:51:17 +08:00

@yangzhezjgs 关于通过 redis_scrapy 实现分布式爬虫里有个配置，redispipline，如果不配置将不会生成 item 到 redis 中，一般都不配置，为了提高爬取存储性能，所以问题是不配置导致不存储，那分布式的意义是什么

Codewj

2018-01-24 13:52:01 +08:00

或者说不配置的话，分布式体现在哪里

ilovebaicai

2018-01-24 15:38:32 +08:00

这个是存储数据的配置，需要。不过你可以将生成的 item 存储到任何地方：mysql，hbase，文件一类，当然也包括存到 redis。分布式并不是体现配置 ITEMS_PIPLINES，分布式是体现爬虫共享 redis 队列。

beforeuwait

2018-01-25 11:34:45 +08:00

分布式应该体现在队列或者消息框架上，数据并不一定要放在一起啊

zyy1245367562

2018-01-28 10:57:24 +08:00

所谓分布式其实就是人多好干活儿，通过队列利用多台机器来提高抓取速度，获取的数据如何存放，不是其根本要解决的痛点。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.