中小企业 2B 系统上，有什么好的大数据实时查询引擎推荐（OLAP）？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2311 days ago, the information mentioned may be changed or developed.

RT。
数据量级已经到达千万级，mysql 即席查询已经不太能满足。
现在内部用过 impala，但是不太好用，复杂类型使用限制较多。
各位大佬，有没有更好的 OLAP 框架组件推荐呢？

25 replies • 2020-02-27 13:20:13 +08:00

YouXia

Feb 26, 2020

Presto

misaka19000

Feb 26, 2020

HBase

zzcworld

Feb 26, 2020

试试 yandex 的 clickhouse 吧

fuyufjh

Feb 26, 2020

千万级不算大，建议单机数据库省时省心，比如 greenplum

leiuu

Feb 26, 2020

@YouXia presto 内部也有感觉速度不够快用来支持在线的应用不知道怎么样...
@misaka19000 hbase 的话，需要再加一个服务吧，专门处理前端和 hbase 之间的交互吧...

leiuu

Feb 26, 2020

@fuyufjh greenplum 有...查询性能千万级应该可以... 现在想替换掉... 因为之前买了优化服务...服务停了就有各种问题哈哈哈

@zzcworld 最近正在看这个不知道有没有分析系统前端直查 clickhouse 的应用

preyta

Feb 26, 2020

clickhouse 可以

misaka19000

Feb 26, 2020

Elasticsearch ？支持 rest 接口

EmdeBoas

Feb 26, 2020

1. HBase 是 CF 的 NoSQL，跟 OLAP 没关系
2. CH 可以，但运维成本高，没法更新，rebalance、扩容、删数据头疼
3. Doris 整体而言不错，性能、运维、灵活性皆可，可以低频更新
但用此类 OLAP 的系统都需要先把数据打平，有一个 ETL 的过程，过于复杂的 SQL （ join 过多），性能都不会太好

有一个纯内存的 OLAP 引擎：SnappyData，速度很快，可以支持非常复杂的 SQL ；但社区小众，而且不稳定，BUG 多，不过千万级的数据还是随便玩了

楼主可以都调研一下，个人推荐 Doris

xinyewdz

Feb 26, 2020

千万级，es 完全可以搞。

leiuu

Feb 26, 2020

@misaka19000 ES 内部有一个 20 亿数据的分析服务... 不过不是即席查询... ES 语法比较复杂、和大数据解决方案路径几乎完全不同，维护学习成本比较高。

leiuu

Feb 26, 2020

@EmdeBoas 感谢 Doris、SnappyData 都没了解过。拓展了我的视野。yeah
@xinyewdz 理论上可以。

maodun1997

Feb 26, 2020

基于 Flink 实时数仓，先做数仓。做了数仓可以提高查询效率。

leiuu

Feb 26, 2020

关于百度开源的 Doris 系统，有一篇介绍还不错： https://blog.bcmeng.com/post/meituan-doris.html
@EmdeBoas 哦不对评论区捉到了你大佬😄

min

Feb 26, 2020

kyligence

aimiyooo

Feb 26, 2020

kylin,druid,es,clickhouse,doris，看情况具体分析吧

lovedebug

Feb 26, 2020

流式实时数据库还是不少的。
ELK 集群 + 热数据可以近实时，这样节省成本。
如果用 SPARK + 分布式实时数据库，那成本可是非常贵的

leiuu

Feb 26, 2020

@min 撞名 kylin，动物园又新来小伙伴...😄 我去了解一下

@aimiyooo 👍👍 这些组件都相对比较活跃，基本上就是这几个中选

@lovedebug 基于 java 的实时分析为啥会天然觉得慢 😄
spark on yarn 倒是目前有一个集群成本确实高很多但是整个数据开发都基于此

lovedebug

Feb 26, 2020

@leiuu spark streaming 在 Azure 上几台机器每个月大几万刀，数据量还不是很大。所以扩大一下还是很惊人的。