公司打算把数据仓库迁移到 hadoop 上,各位有什么好的思路能借鉴吗

2019-03-08 11:09:30 +08:00
 Andata

目前情况是这样的,其实数据仓库差不多 2 个 T,涉及到订单跟用户操作日志的表会比较大,一个表有 70G,但是因为某些原因不能拆成两个表(或者说是不想去排查拆完之后那些存储过程会被影响到),在加上现在数据量大生产也比较慢的原因,所以 boss 打算升级一下用 hadoop。但目前公司没有 hadoop 的相关人员。

然后就打算用 hbase 来存储数据,但是我查了,hbase 适合存储那些非结构化,稀疏的内容。但我们的表都是完完整整的二维表。我觉得用 greenplum 这样的分布式数据库就可以解决目前的问题(指的是仓库)。 boss 现在叫我先把数据迁到 hadoop 看看,应该是有点先来试一下的意思。

现在我想问,有没有其他人也是差不多这种情况,你们的 hadoop 仓库是怎么搭建的?我们 boss 的考虑是什么?

1328 次点击
所在节点    问与答
1 条回复
gaodeng2008
2020-03-18 22:15:31 +08:00
你们 boss 可能痴迷于的 hadoop 的一些概念。。。看看最新 gartner 对 hadoop 的点评。。可以看看大牛的解析 https://greenplum.cn/2019/09/19/hadoop-runs-out-of-gas/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542422

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX