Apache Doris 现在使用的多吗 效果怎么样啊

2023-09-27 10:54:32 +08:00
 9921

有没有项目用到 doris 的大佬,可以谈一下使用感受吗 以前做数仓的时候准备研究下 doris ,后来换工作,业务方向变了就遗忘了 现在公司已有的业务平台数据用的 hbase ,数据量一天 500 万,存储查询明细没有问题,主要是增加了一些聚合查询的场景,速度太慢了,二级索引啥的效果也不好,想看看 doris 效果行不行

2806 次点击
所在节点    程序员
22 条回复
ekkoli
2023-09-27 11:07:13 +08:00
对于聚合数据的话 doris 强烈推荐,效果很好,我们团队 100t 的数据 使用起来很好
8355
2023-09-27 14:11:01 +08:00
@ekkoli 我们现在用 clickhouse ,数据规模跟你们差不多,请问之前考虑过 clickhouse 不,有啥绝对优势嘛
ekkoli
2023-09-27 14:31:24 +08:00
这个没有,一直用的 doris
kanepan19
2023-09-27 14:33:01 +08:00
@8355 打吧的技术文章说,doris 比 clickhouse 查询的并发率高
9921
2023-09-27 14:44:04 +08:00
@8355 以前用 clickhouse 遇到很多问题,最主要的是它的更新操作是后台任务,sql 执行返回执行成功,但是后台任务并不一定执行完成了,对机器配置要求高
9921
2023-09-27 14:46:31 +08:00
@ekkoli 感谢~有个问题请教下,Unique 模型下现在依然不支持部分字段更新吗,大宽表有不同的实时任务写入不同字段
COKETSANG
2023-09-27 14:50:40 +08:00
我们是 php 技术栈,也上的 clickhouse ,属于一个游戏公司内部后台数据分析项目。
每日写入超千万明细写入。聚合后查询响应都在秒级内。
单天 500 万的数据量我推荐你用 clickhouse 。
这个量级下 clickhouse join 慢的劣势不是特别明显,但是聚合的优势很舒服应该。
doris 我觉得整个生态好奇怪,分了 selectdb 、starrocks 好几家。
然后如果你是 java 技术栈好像 doris 跟原来 hadoop 那套会更实用,能搭配 spark 、flink 那些一起用。
COKETSANG
2023-09-27 14:57:09 +08:00
@9921 理论上 clickhouse 的机器配置不会比 habse 那些要求高啊,我们是用 clickhouse 两台 16 核 64G 的集群,平替了一个 40 台 1000 核 1TB 的集群。
不过我们的数据量不大,5TB 左右。而且 clickhouse 的并发性能确实不行,我们 qps 是不过百的。update 也支持不太行。我们用户画像虽然是 clickhouse 做的,但是是 clickhouse 计算结果,同步到到一个 mysql 去支持业务并发查询的。
9921
2023-09-27 15:42:29 +08:00
@COKETSANG 我们以前用的单节点的,具体配置忘了,性能跟不上,更新一行数据后,任务一直在排队;还有一个功能好像是叫物化视图还是啥的,功能不错,但是机器性能不行就完全用不了
9921
2023-09-27 15:46:25 +08:00
@COKETSANG clickhouse 查询速度很快,以前是因为覆盖写入的数据和查询的数据长时间不一致,就弃用了
COKETSANG
2023-09-27 16:00:29 +08:00
@9921 ck 的话你就默认它没有 update 。需要 insert 代替 update ,搭配 replacing 引擎 final 来读数据就是,跟其他数据库有点点不同。
物化视图也是类似,一般需要搭配 aggregating 引擎用。碰上需要去重的场景就不太适用了。
那挺可惜的,目前我们有两套系统 ck 在用。有一套是单机 32 核 64G ,目前来看不过亿的数据都是随便查的,我安利你看看伴鱼和七猫的团队文档,我觉得学到挺多的。
llzzll1234
2023-09-27 16:26:03 +08:00
挺不错的,前司去年把报表从 clickhouse 转向了 doris ,很重要的一个原因是 ck 的迷之 sql 写法,对于数据的话目前只有几百 G 所以看不出多少区别
9921
2023-09-27 17:11:54 +08:00
@COKETSANG 当初也是听说 ck 厉害才换的,需要整个多项业务各种表到一个 100 多列大宽表,在测试去重的时候碰壁了很久,就没有再继续研究了
COKETSANG
2023-09-27 17:47:01 +08:00
@9921 看了下我们现在也有 135 列高频查询的宽表,ck 本身列存对列数不敏感,我们也有数据不多 2000 多列的表,查询单列不多的情况下确实也很快。
ck 简单列聚合确实很牛逼,但是 join 确实不太行。当时选型也是考虑可以减少 join 进入数量解决。我们大概 21 年开始用了,早期版本不支持 2 个以上 join ,多表只能用嵌套 join 也确实恶心。不过我们是自己参考 mongodb 写的小型 orm 解决的也问题不大。
目前整体看暂时没有性能瓶颈所以还是推荐你可以试试。
COKETSANG
2023-09-27 17:49:04 +08:00
@9921 而且 ck 压缩比挺高的,就是要管下类型不能像 hive 那样 string 一把梭。但毕竟我们是服务器费用敏感的小公司
rockxsj
2023-09-27 18:17:29 +08:00
对比后用的 starrocks ,开源程度更高,而且社区配合度很高
leonhao
2023-09-27 18:23:10 +08:00
@llzzll1234 sql 语法这点不知道为啥没人提,相当丑陋,放着标准 sql 不用非要另辟蹊径,不知道设计的时候咋想的
hangszhang
2023-09-28 09:50:52 +08:00
美团在大规模用这个
ser3w
2023-09-28 16:13:25 +08:00
现在在用 starrocks ,社区问题跟进非常积极
ekkoli
2023-09-30 10:49:36 +08:00
@9921 据我所知是不支持的,这种情况下一般肯定是拆表

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/977499

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX