• 请不要在回答技术问题时复制粘贴 AI 生成的内容
leiuu
V2EX  ›  程序员

中小企业 2B 系统上,有什么好的大数据实时查询引擎推荐(OLAP)?

  •  
  •   leiuu · Feb 26, 2020 · 5591 views
    This topic created in 2267 days ago, the information mentioned may be changed or developed.

    RT。
    数据量级已经到达千万级,mysql 即席查询已经不太能满足。
    现在内部用过 impala,但是不太好用,复杂类型使用限制较多。
    各位大佬,有没有更好的 OLAP 框架组件推荐呢?

    25 replies    2020-02-27 13:20:13 +08:00
    YouXia
        1
    YouXia  
       Feb 26, 2020
    Presto
    misaka19000
        2
    misaka19000  
       Feb 26, 2020
    HBase
    zzcworld
        3
    zzcworld  
       Feb 26, 2020
    试试 yandex 的 clickhouse 吧
    fuyufjh
        4
    fuyufjh  
       Feb 26, 2020   ❤️ 1
    千万级不算大,建议单机数据库省时省心,比如 greenplum
    leiuu
        5
    leiuu  
    OP
       Feb 26, 2020
    @YouXia presto 内部也有 感觉速度不够快 用来支持在线的应用不知道怎么样...
    @misaka19000 hbase 的话,需要再加一个服务吧,专门处理前端和 hbase 之间的交互吧...
    leiuu
        6
    leiuu  
    OP
       Feb 26, 2020
    @fuyufjh greenplum 有...查询性能千万级应该可以... 现在想替换掉... 因为之前买了优化服务...服务停了就有各种问题 哈哈哈

    @zzcworld 最近正在看这个 不知道有没有分析系统前端直查 clickhouse 的应用
    preyta
        7
    preyta  
       Feb 26, 2020
    clickhouse 可以
    misaka19000
        8
    misaka19000  
       Feb 26, 2020
    Elasticsearch ?支持 rest 接口
    EmdeBoas
        9
    EmdeBoas  
       Feb 26, 2020   ❤️ 2
    1. HBase 是 CF 的 NoSQL,跟 OLAP 没关系
    2. CH 可以,但运维成本高,没法更新,rebalance、扩容、 删数据头疼
    3. Doris 整体而言不错,性能、运维、灵活性皆可,可以低频更新
    但用此类 OLAP 的系统都需要先把数据打平,有一个 ETL 的过程,过于复杂的 SQL ( join 过多),性能都不会太好

    有一个纯内存的 OLAP 引擎:SnappyData,速度很快,可以支持非常复杂的 SQL ;但社区小众,而且不稳定,BUG 多,不过千万级的数据还是随便玩了

    楼主可以都调研一下,个人推荐 Doris
    xinyewdz
        10
    xinyewdz  
       Feb 26, 2020
    千万级,es 完全可以搞。
    leiuu
        11
    leiuu  
    OP
       Feb 26, 2020
    @misaka19000 ES 内部有一个 20 亿数据的分析服务... 不过不是即席查询... ES 语法比较复杂、和大数据解决方案路径几乎完全不同,维护学习成本比较高。
    leiuu
        12
    leiuu  
    OP
       Feb 26, 2020
    @EmdeBoas 感谢 Doris、SnappyData 都没了解过。拓展了我的视野。yeah
    @xinyewdz 理论上可以。
    maodun1997
        13
    maodun1997  
       Feb 26, 2020
    基于 Flink 实时数仓,先做数仓。做了数仓可以提高查询效率。
    leiuu
        14
    leiuu  
    OP
       Feb 26, 2020   ❤️ 1
    关于百度开源的 Doris 系统,有一篇介绍还不错: https://blog.bcmeng.com/post/meituan-doris.html
    @EmdeBoas 哦 不对 评论区捉到了你 大佬😄
    min
        15
    min  
       Feb 26, 2020
    kyligence
    aimiyooo
        16
    aimiyooo  
       Feb 26, 2020
    kylin,druid,es,clickhouse,doris,看情况具体分析吧
    lovedebug
        17
    lovedebug  
       Feb 26, 2020
    流式实时数据库还是不少的。
    ELK 集群 + 热数据可以近实时,这样节省成本。
    如果用 SPARK + 分布式实时数据库,那成本可是非常贵的
    leiuu
        18
    leiuu  
    OP
       Feb 26, 2020
    @min 撞名 kylin,动物园又新来小伙伴...😄 我去了解一下

    @aimiyooo 👍👍 这些组件都相对比较活跃,基本上就是这几个中选

    @lovedebug 基于 java 的实时分析 为啥会天然觉得慢 😄
    spark on yarn 倒是目前有一个集群 成本确实高很多 但是整个数据开发都基于此
    lovedebug
        19
    lovedebug  
       Feb 26, 2020
    @leiuu spark streaming 在 Azure 上几台机器每个月大几万刀,数据量还不是很大。 所以扩大一下还是很惊人的。
    btnokami
        20
    btnokami  
       Feb 26, 2020 via iPhone
    aws redshift?
    jakson
        21
    jakson  
       Feb 26, 2020
    16 楼正解
    SbloodyS
        22
    SbloodyS  
       Feb 26, 2020
    spark 或者 flink 实时数仓搞定
    yaxianzhi
        23
    yaxianzhi  
       Feb 26, 2020
    千万量级分下表,优化下索引,优化下 sql,应该可以应对吧
    Comdex
        24
    Comdex  
       Feb 26, 2020 via iPhone
    试试 tidb?
    leiuu
        25
    leiuu  
    OP
       Feb 27, 2020
    @yaxianzhi 指 mysql 吗,理论上应该可以的。只是优化起来不太方便,考虑到可能还会增长。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1590 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 16:39 · PVG 00:39 · LAX 09:39 · JFK 12:39
    ♥ Do have faith in what you're doing.