公司大数据这块一直用 hive 跑的,但是 hive 实时性不行,跑跑后台任务还可以。 最近想把这个实时性查询弄上去,spark 是一个选择,肯定比 hive 快,但是毕竟是 scala 写的,上限应该不如基于 C 的查询引擎快,这次想要一步到位。 impala 是一个选项,但问题也挺多的,比如复杂类型只支持 parquet 类型存储,然而公司的数据一直都是 text 存的,光转这个就是一个巨大的工程,还有一些问题比如 partition key 不支持 date 类型、map 根据键访问值的方式过于奇怪等等。 最后打算用 postgres-xl,因为公司用 pg 比较多,线上数据库也是 pgxl,也写过一些插件对 pg 源码也比较熟悉。但是做了一阵子发现这个东西简直不适合做大数据啊,不支持多进程,生成的查询计划也很蠢,而且查询过程中连个进度条都没有。 想问一下大家有拿这个做大数据分析的吗?还是我的使用方法有问题?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.