目前情况是这样的,其实数据仓库差不多 2 个 T,涉及到订单跟用户操作日志的表会比较大,一个表有 70G,但是因为某些原因不能拆成两个表(或者说是不想去排查拆完之后那些存储过程会被影响到),在加上现在数据量大生产也比较慢的原因,所以 boss 打算升级一下用 hadoop。但目前公司没有 hadoop 的相关人员。
然后就打算用 hbase 来存储数据,但是我查了,hbase 适合存储那些非结构化,稀疏的内容。但我们的表都是完完整整的二维表。我觉得用 greenplum 这样的分布式数据库就可以解决目前的问题(指的是仓库)。 boss 现在叫我先把数据迁到 hadoop 看看,应该是有点先来试一下的意思。
现在我想问,有没有其他人也是差不多这种情况,你们的 hadoop 仓库是怎么搭建的?我们 boss 的考虑是什么?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.