• 请不要在回答技术问题时复制粘贴 AI 生成的内容
eyp82
V2EX  ›  程序员

要设计一个准实时的数据流, 最后阶段每隔一分钟左右做一次入库, 这一分钟内积累的数据要暂存在哪?

  •  
  •   eyp82 · Mar 31, 2017 · 2504 views
    This topic created in 3339 days ago, the information mentioned may be changed or developed.

    如题, 请教一下各位:

    最近要设计一个准实时的数据流系统, 基本的功能是接受数据源发过来的数据, 做一些清洗转换, 转换成 MySQL 的数据表格式, 然后入库. 入库打算采用异步准实时的, 大概每隔一两分钟做一次批量插入数据库的操作.

    请教大家, 这个时间间隔内接收到的数据, 怎么暂存(用什么库 /框架之类),会比较好一些, 现阶段暂时在考虑有没有比较简单的方案先跑起来再说; 另外如果以后要扩展, 要考虑可靠性(比如宕机尽量别丢消息)之类呢?

    多谢大家.

    Supplement 1  ·  Mar 31, 2017
    多谢各位!
    6 replies    2017-04-11 23:07:54 +08:00
    afpro
        1
    afpro  
       Mar 31, 2017
    看起来是 kafka 的菜?
    kulove
        2
    kulove  
       Mar 31, 2017 via iPhone
    redis kafka
    WhoMercy
        3
    WhoMercy  
       Mar 31, 2017 via Android
    一分钟数据量不大可以放内存。
    要宕机不丢数据,发送放得有重传机制,接收方得有持久化机制。各种消息队列+内存数据库,如 rocketMQ+Redis
    cjyang1128
        4
    cjyang1128  
       Mar 31, 2017
    flume + kafka + storm [滑稽
    bk201
        5
    bk201  
       Mar 31, 2017
    mq 就搞定了
    eyp82
        6
    eyp82  
    OP
       Apr 11, 2017
    谢谢大家, 最后用了某云服务的 message queue
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2801 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 12:15 · PVG 20:15 · LAX 05:15 · JFK 08:15
    ♥ Do have faith in what you're doing.