请教一下存储的问题

2021-01-25 16:17:26 +08:00
 foxyier
目前有需求场景:
写入 100w+数据量每天, 场景为离线, 且写多读少, 目前用的是 hbase+hive

遇到的问题:
hbase 的服务端 rpc 频繁超时, 导致数据堆积

已采用的方案:
与服务端沟通, 增加 hbase 离线集群,增加服务端数量(结果: 轻度缓解超时问题, 但仍未解决问题)

待选方案:
1. 更换存储, 改为 mongodb 或者其他存储
2. 直接把数据写入到 hive 表(这里想请教一下两个问题:1. hive 表中外部表和内部表在读写性能方面是否有区别,2. hive 表的写入效率如何, 是否能支持 100w/天的写入效率)

想请教一下各位大大, 待选方案是否可行, 以及是否有更好的解决方案
2189 次点击
所在节点    Hadoop
4 条回复
leopod1995
2021-01-25 18:06:18 +08:00
拙见,rpc 频繁超时,有试过上消息队列吗?
mwcodenoname
2021-01-25 18:21:05 +08:00
rpc 超时是写入还是读取的时候? mongodb 写入性能应该不如 hbase,而且 100w 也不多。
建议排查一下吧,难保换了存储不会有这个问题。
hbase 表有做预分区吗?有没有数据热点? regionserver 的 gc 情况如何?
foxyier
2021-01-25 18:43:54 +08:00
@leopod1995 现在已经有消息队列了, 但是由于频繁超时, 会导致消息堆积。
harryhao
2021-01-25 18:48:33 +08:00
这个量很小,主要看高峰期,具体怎么读写的可以给个样例

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/748200

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX