V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
foxyier
V2EX  ›  Hadoop

请教一下存储的问题

  •  
  •   foxyier · Jan 25, 2021 · 3221 views
    This topic created in 1921 days ago, the information mentioned may be changed or developed.
    目前有需求场景:
    写入 100w+数据量每天, 场景为离线, 且写多读少, 目前用的是 hbase+hive

    遇到的问题:
    hbase 的服务端 rpc 频繁超时, 导致数据堆积

    已采用的方案:
    与服务端沟通, 增加 hbase 离线集群,增加服务端数量(结果: 轻度缓解超时问题, 但仍未解决问题)

    待选方案:
    1. 更换存储, 改为 mongodb 或者其他存储
    2. 直接把数据写入到 hive 表(这里想请教一下两个问题:1. hive 表中外部表和内部表在读写性能方面是否有区别,2. hive 表的写入效率如何, 是否能支持 100w/天的写入效率)

    想请教一下各位大大, 待选方案是否可行, 以及是否有更好的解决方案
    4 replies    2021-01-25 18:48:33 +08:00
    leopod1995
        1
    leopod1995  
       Jan 25, 2021
    拙见,rpc 频繁超时,有试过上消息队列吗?
    mwcodenoname
        2
    mwcodenoname  
       Jan 25, 2021
    rpc 超时是写入还是读取的时候? mongodb 写入性能应该不如 hbase,而且 100w 也不多。
    建议排查一下吧,难保换了存储不会有这个问题。
    hbase 表有做预分区吗?有没有数据热点? regionserver 的 gc 情况如何?
    foxyier
        3
    foxyier  
    OP
       Jan 25, 2021
    @leopod1995 现在已经有消息队列了, 但是由于频繁超时, 会导致消息堆积。
    harryhao
        4
    harryhao  
       Jan 25, 2021
    这个量很小,主要看高峰期,具体怎么读写的可以给个样例
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2513 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 06:09 · PVG 14:09 · LAX 23:09 · JFK 02:09
    ♥ Do have faith in what you're doing.