大佬们,如何解决快速筛选、快速多维统计查询在一起的需求

2023-04-11 19:51:09 +08:00
 dtgxx
我们想法是数据双写到 Clickhouse+ES 里面,界面用户给定一些模糊匹配条件,我们通过 ES 去全文搜索,然后把搜索结果的 ID 去关联 Clickhouse 里面的主键索引,再用 Clickhouse 的 sql 关联后统计。

但是遇到个问题,ES 检索后的数据集可能到 20 亿,这么多的 ID ,怎么能和 Clickhouse 去关联呢,这个架构是怎么做比较好呢,把这 20 亿数据导入到 Clickhouse ,然后关联? 这样界面响应的时效性是不是很慢了。 很多平台都支持几十亿的数据快速检索+准确统计,有没有大佬知道大致是怎么实现的呢?

v 吧大佬多,真心请教下各位大佬!
635 次点击
所在节点    问与答
4 条回复
MockingLee
2023-04-11 19:54:02 +08:00
数仓预聚合吧
dtgxx
2023-04-11 19:59:41 +08:00
@MockingLee 抱歉大佬,我表达的不太清晰,ES 和 Clickhouse 里面存储的都是明细数据,最终查询出的结果也是要明细+明细的聚合,用户在界面可能输入千奇百怪的查询条件,基本没啥固定的搜索条件,然后我们在 ES 几百个字段里面去分别模糊匹配,然后再返回 ID 到 Clickhouse 里面去聚合。这块在数仓做预聚合,感觉不咋好实现。
guangming3055
2023-04-11 21:05:09 +08:00
ES 检索后的数据集可能到 20 亿,这个数量级能导出来吗,我觉得只能用 ES 的聚合
dtgxx
2023-04-11 22:44:09 +08:00
@guangming3055 嗯呢,确实是有这个感觉,但是 es 聚合性能确实没够用,而且有数据不准确的问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/931704

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX