Apache Doris 现在使用的多吗效果怎么样啊

有没有项目用到 doris 的大佬，可以谈一下使用感受吗以前做数仓的时候准备研究下 doris ，后来换工作，业务方向变了就遗忘了现在公司已有的业务平台数据用的 hbase ，数据量一天 500 万，存储查询明细没有问题，主要是增加了一些聚合查询的场景，速度太慢了，二级索引啥的效果也不好，想看看 doris 效果行不行

ekkoli

2023-09-27 11:07:13 +08:00

对于聚合数据的话 doris 强烈推荐，效果很好，我们团队 100t 的数据使用起来很好

8355

2023-09-27 14:11:01 +08:00

@ekkoli 我们现在用 clickhouse ，数据规模跟你们差不多，请问之前考虑过 clickhouse 不，有啥绝对优势嘛

ekkoli

2023-09-27 14:31:24 +08:00

这个没有，一直用的 doris

kanepan19

2023-09-27 14:33:01 +08:00

@8355 打吧的技术文章说，doris 比 clickhouse 查询的并发率高

9921

2023-09-27 14:44:04 +08:00

@8355 以前用 clickhouse 遇到很多问题，最主要的是它的更新操作是后台任务，sql 执行返回执行成功，但是后台任务并不一定执行完成了，对机器配置要求高

9921

2023-09-27 14:46:31 +08:00

@ekkoli 感谢~有个问题请教下，Unique 模型下现在依然不支持部分字段更新吗，大宽表有不同的实时任务写入不同字段

COKETSANG

2023-09-27 14:50:40 +08:00

我们是 php 技术栈，也上的 clickhouse ，属于一个游戏公司内部后台数据分析项目。
每日写入超千万明细写入。聚合后查询响应都在秒级内。
单天 500 万的数据量我推荐你用 clickhouse 。
这个量级下 clickhouse join 慢的劣势不是特别明显，但是聚合的优势很舒服应该。
doris 我觉得整个生态好奇怪，分了 selectdb 、starrocks 好几家。
然后如果你是 java 技术栈好像 doris 跟原来 hadoop 那套会更实用，能搭配 spark 、flink 那些一起用。

COKETSANG

2023-09-27 14:57:09 +08:00

@9921 理论上 clickhouse 的机器配置不会比 habse 那些要求高啊，我们是用 clickhouse 两台 16 核 64G 的集群，平替了一个 40 台 1000 核 1TB 的集群。
不过我们的数据量不大，5TB 左右。而且 clickhouse 的并发性能确实不行，我们 qps 是不过百的。update 也支持不太行。我们用户画像虽然是 clickhouse 做的，但是是 clickhouse 计算结果，同步到到一个 mysql 去支持业务并发查询的。

9921

2023-09-27 15:42:29 +08:00

@COKETSANG 我们以前用的单节点的，具体配置忘了，性能跟不上，更新一行数据后，任务一直在排队；还有一个功能好像是叫物化视图还是啥的，功能不错，但是机器性能不行就完全用不了

9921

2023-09-27 15:46:25 +08:00

@COKETSANG clickhouse 查询速度很快，以前是因为覆盖写入的数据和查询的数据长时间不一致，就弃用了

COKETSANG

2023-09-27 16:00:29 +08:00

@9921 ck 的话你就默认它没有 update 。需要 insert 代替 update ，搭配 replacing 引擎 final 来读数据就是，跟其他数据库有点点不同。
物化视图也是类似，一般需要搭配 aggregating 引擎用。碰上需要去重的场景就不太适用了。
那挺可惜的，目前我们有两套系统 ck 在用。有一套是单机 32 核 64G ，目前来看不过亿的数据都是随便查的，我安利你看看伴鱼和七猫的团队文档，我觉得学到挺多的。

llzzll1234

2023-09-27 16:26:03 +08:00

挺不错的，前司去年把报表从 clickhouse 转向了 doris ，很重要的一个原因是 ck 的迷之 sql 写法，对于数据的话目前只有几百 G 所以看不出多少区别

9921

2023-09-27 17:11:54 +08:00

@COKETSANG 当初也是听说 ck 厉害才换的，需要整个多项业务各种表到一个 100 多列大宽表，在测试去重的时候碰壁了很久，就没有再继续研究了

COKETSANG

2023-09-27 17:47:01 +08:00

@9921 看了下我们现在也有 135 列高频查询的宽表，ck 本身列存对列数不敏感，我们也有数据不多 2000 多列的表，查询单列不多的情况下确实也很快。
ck 简单列聚合确实很牛逼，但是 join 确实不太行。当时选型也是考虑可以减少 join 进入数量解决。我们大概 21 年开始用了，早期版本不支持 2 个以上 join ，多表只能用嵌套 join 也确实恶心。不过我们是自己参考 mongodb 写的小型 orm 解决的也问题不大。
目前整体看暂时没有性能瓶颈所以还是推荐你可以试试。

COKETSANG

2023-09-27 17:49:04 +08:00

@9921 而且 ck 压缩比挺高的，就是要管下类型不能像 hive 那样 string 一把梭。但毕竟我们是服务器费用敏感的小公司

rockxsj

2023-09-27 18:17:29 +08:00

对比后用的 starrocks ，开源程度更高，而且社区配合度很高

leonhao

2023-09-27 18:23:10 +08:00

@llzzll1234 sql 语法这点不知道为啥没人提，相当丑陋，放着标准 sql 不用非要另辟蹊径，不知道设计的时候咋想的

hangszhang

2023-09-28 09:50:52 +08:00

美团在大规模用这个

ser3w

2023-09-28 16:13:25 +08:00

现在在用 starrocks ，社区问题跟进非常积极

ekkoli

2023-09-30 10:49:36 +08:00

@9921 据我所知是不支持的，这种情况下一般肯定是拆表

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/977499

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

Apache Doris 现在使用的多吗 效果怎么样啊

Apache Doris 现在使用的多吗效果怎么样啊