要设计一个准实时的数据流, 最后阶段每隔一分钟左右做一次入库, 这一分钟内积累的数据要暂存在哪?

2017-03-31 07:48:07 +08:00
 eyp82

如题, 请教一下各位:

最近要设计一个准实时的数据流系统, 基本的功能是接受数据源发过来的数据, 做一些清洗转换, 转换成 MySQL 的数据表格式, 然后入库. 入库打算采用异步准实时的, 大概每隔一两分钟做一次批量插入数据库的操作.

请教大家, 这个时间间隔内接收到的数据, 怎么暂存(用什么库 /框架之类),会比较好一些, 现阶段暂时在考虑有没有比较简单的方案先跑起来再说; 另外如果以后要扩展, 要考虑可靠性(比如宕机尽量别丢消息)之类呢?

多谢大家.

2106 次点击
所在节点    程序员
6 条回复
afpro
2017-03-31 07:50:23 +08:00
看起来是 kafka 的菜?
kulove
2017-03-31 07:55:09 +08:00
redis kafka
WhoMercy
2017-03-31 08:34:35 +08:00
一分钟数据量不大可以放内存。
要宕机不丢数据,发送放得有重传机制,接收方得有持久化机制。各种消息队列+内存数据库,如 rocketMQ+Redis
cjyang1128
2017-03-31 09:52:14 +08:00
flume + kafka + storm [滑稽
bk201
2017-03-31 10:17:34 +08:00
mq 就搞定了
eyp82
2017-04-11 23:07:54 +08:00
谢谢大家, 最后用了某云服务的 message queue

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/351631

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX