Apache Doris 现在使用的多吗 效果怎么样啊

346 天前
 9921

有没有项目用到 doris 的大佬,可以谈一下使用感受吗 以前做数仓的时候准备研究下 doris ,后来换工作,业务方向变了就遗忘了 现在公司已有的业务平台数据用的 hbase ,数据量一天 500 万,存储查询明细没有问题,主要是增加了一些聚合查询的场景,速度太慢了,二级索引啥的效果也不好,想看看 doris 效果行不行

2561 次点击
所在节点    程序员
22 条回复
ekkoli
346 天前
对于聚合数据的话 doris 强烈推荐,效果很好,我们团队 100t 的数据 使用起来很好
8355
346 天前
@ekkoli 我们现在用 clickhouse ,数据规模跟你们差不多,请问之前考虑过 clickhouse 不,有啥绝对优势嘛
ekkoli
346 天前
这个没有,一直用的 doris
kanepan19
346 天前
@8355 打吧的技术文章说,doris 比 clickhouse 查询的并发率高
9921
346 天前
@8355 以前用 clickhouse 遇到很多问题,最主要的是它的更新操作是后台任务,sql 执行返回执行成功,但是后台任务并不一定执行完成了,对机器配置要求高
9921
346 天前
@ekkoli 感谢~有个问题请教下,Unique 模型下现在依然不支持部分字段更新吗,大宽表有不同的实时任务写入不同字段
COKETSANG
346 天前
我们是 php 技术栈,也上的 clickhouse ,属于一个游戏公司内部后台数据分析项目。
每日写入超千万明细写入。聚合后查询响应都在秒级内。
单天 500 万的数据量我推荐你用 clickhouse 。
这个量级下 clickhouse join 慢的劣势不是特别明显,但是聚合的优势很舒服应该。
doris 我觉得整个生态好奇怪,分了 selectdb 、starrocks 好几家。
然后如果你是 java 技术栈好像 doris 跟原来 hadoop 那套会更实用,能搭配 spark 、flink 那些一起用。
COKETSANG
346 天前
@9921 理论上 clickhouse 的机器配置不会比 habse 那些要求高啊,我们是用 clickhouse 两台 16 核 64G 的集群,平替了一个 40 台 1000 核 1TB 的集群。
不过我们的数据量不大,5TB 左右。而且 clickhouse 的并发性能确实不行,我们 qps 是不过百的。update 也支持不太行。我们用户画像虽然是 clickhouse 做的,但是是 clickhouse 计算结果,同步到到一个 mysql 去支持业务并发查询的。
9921
346 天前
@COKETSANG 我们以前用的单节点的,具体配置忘了,性能跟不上,更新一行数据后,任务一直在排队;还有一个功能好像是叫物化视图还是啥的,功能不错,但是机器性能不行就完全用不了
9921
346 天前
@COKETSANG clickhouse 查询速度很快,以前是因为覆盖写入的数据和查询的数据长时间不一致,就弃用了
COKETSANG
346 天前
@9921 ck 的话你就默认它没有 update 。需要 insert 代替 update ,搭配 replacing 引擎 final 来读数据就是,跟其他数据库有点点不同。
物化视图也是类似,一般需要搭配 aggregating 引擎用。碰上需要去重的场景就不太适用了。
那挺可惜的,目前我们有两套系统 ck 在用。有一套是单机 32 核 64G ,目前来看不过亿的数据都是随便查的,我安利你看看伴鱼和七猫的团队文档,我觉得学到挺多的。
llzzll1234
346 天前
挺不错的,前司去年把报表从 clickhouse 转向了 doris ,很重要的一个原因是 ck 的迷之 sql 写法,对于数据的话目前只有几百 G 所以看不出多少区别
9921
346 天前
@COKETSANG 当初也是听说 ck 厉害才换的,需要整个多项业务各种表到一个 100 多列大宽表,在测试去重的时候碰壁了很久,就没有再继续研究了
COKETSANG
346 天前
@9921 看了下我们现在也有 135 列高频查询的宽表,ck 本身列存对列数不敏感,我们也有数据不多 2000 多列的表,查询单列不多的情况下确实也很快。
ck 简单列聚合确实很牛逼,但是 join 确实不太行。当时选型也是考虑可以减少 join 进入数量解决。我们大概 21 年开始用了,早期版本不支持 2 个以上 join ,多表只能用嵌套 join 也确实恶心。不过我们是自己参考 mongodb 写的小型 orm 解决的也问题不大。
目前整体看暂时没有性能瓶颈所以还是推荐你可以试试。
COKETSANG
346 天前
@9921 而且 ck 压缩比挺高的,就是要管下类型不能像 hive 那样 string 一把梭。但毕竟我们是服务器费用敏感的小公司
rockxsj
346 天前
对比后用的 starrocks ,开源程度更高,而且社区配合度很高
leonhao
346 天前
@llzzll1234 sql 语法这点不知道为啥没人提,相当丑陋,放着标准 sql 不用非要另辟蹊径,不知道设计的时候咋想的
hangszhang
345 天前
美团在大规模用这个
ser3w
345 天前
现在在用 starrocks ,社区问题跟进非常积极
ekkoli
343 天前
@9921 据我所知是不支持的,这种情况下一般肯定是拆表

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/977499

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX