作为中间管道连接爬虫与清洗模块。 不同的数据会由不同的清洗模块处理后存入 SQL。
估计抓个一年也就不到 2G 的数据。但爬虫的请求数据次数还是比较多的,一分钟可能有个几百次吧(这样往管道里塞的数据也是几百次吧)
这样的规模,为了能持续运行,应该是要选个可以持久化的管道吧
KAFKA 与 RABBITMQ 那个适合呢
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.