预计算的时代该结束了

309 天前
 Braisdom
原文链接: https://www.agiquery.com/blog/precomputation-should-be-over

9624 次点击
所在节点    推广
77 条回复
token10086
309 天前
兄弟你这个地址秀我一脸。。。。
4u1kto
309 天前
看来预计算的时代真该结束了
qk3z
309 天前
兄弟,趁别人没看到,赶紧换个地址
Braisdom
309 天前
@token10086 抱歉,修改好了。实在没留意,文章刚刚写好。
Braisdom
309 天前
统一感谢一下。。。。
lexa
309 天前
kyligence 估计要急了哦。
JavaGo
309 天前
你这是要推翻世界的节奏呀...
hanhugh
309 天前
看上去不错,关于数据透视表目前我们是才用写代码的方式来生成交叉维度报表,后面准备换成 flink 单机运行,使用标准的 map 、flatmap 、reduce 、groupby 等算子来完成。
预计算,数据量大肯定是需要的。
hanhugh
309 天前
有很多大数据引擎,特别是时序相关的引擎,都想使用自己设计的 dsl 来替换掉 sql ,但好像都不是很理想
Braisdom
309 天前
@hanhugh 非常同意你的看法,自己设计的 DSL 短期内很难产生影响力,毕竟 SQL 已经出现近 40 年了,已经根深蒂固了,只能通过间接的方法实现,除非有越级大的公司做背书。

Google 提的 NoSQL 目前只能在部分领域适用,关系运算还是以 SQL 为主,估计还得需要类似 OpenAI 形式的创新,来改写历史。
dayeye2006199
309 天前
我记得前几年有个 kylin 的框架非常流行,就是预先按维度聚合之后再提供查询
Braisdom
309 天前
@dayeye2006199 kylin 是预计算最典型的产品,
Alias4ck
309 天前
@Braisdom openai 形式的我知道有一个产品 在外网很火 https://github.com/mindsdb/mindsdb
Braisdom
309 天前
@Alias4ck 我和这个项目不是同一类项目,后面再写个文章介绍一下 chatgpt 和实际的数据分析之间的距离。
beneo
309 天前
说真的,别再吹了。Agile Query 本质上只是 BI 里面的 SQL 组装工具。

如今的 BI 系统,普遍通过数据集、分组字段、自定义计算字段等方式,结合可视化维度和度量的拖拽操作,来生成 SQL 语句。
而 Agile Query ,它仅仅是创建了一个 DSL 用来生成 SQL 。

这两种方法,无论是图形化界面生成 SQL ,还是你的 Agile Query ,其本质都在于简化查询过程。但最终,这些查询还是需要转换成 SQL ,由底层数据库执行。无论查询语言或工具有多高效,它们的数据处理和计算能力终究受限于底层数据库的性能。即便是高级的查询工具,也不能超越它们所依赖的数据库的基本性能限制。比如,最近有人在讨论 MySQL 单表一亿条数据的聚合查询,即使使用了 Agile Query ,也无法达到 Clickhouse 那样的效果。

此外,你提到的“预计算时代的结束”这一趋势,确实存在这样的方向。但是,别人的解决方案通常是采用像 Apache Doris 或 StarRocks 这样的 DB 。他们是引入更牛逼的 DB 啊,而不是引入一个“语法糖”。你怎么能把别人的能力当成你的 feature ,然后做一个广告呢 ?

最后,我真的好奇你家庭如何支撑你这样创业,或者有怎样的金主来支撑起你的事业。你这个东西搞了好几年了,V 站上面也宣传了小一年了,从承诺开源到不开源,从承诺 docker 镜像开放到现在没谱,从一直否认 Agile Query 不是 BI ,到现在就是 BI (的一个小边角)。次次都在转弯。

所以,你到底要做个什么东西?你面相的用户到底是谁?
Braisdom
309 天前
@beneo 兄弟本质上是一个 DSL 生成 SQL ,关键是如何生成的 SQL ,
生成的 SQL 能不能进行 "RFM 分析"、"同环比分析"、"客户画像"等,

如果兄弟开发出通过拖拽实现上述分析,我需要向兄弟你好好学习一下,有机会一定去拜访。
lexa
309 天前
@beneo 大佬,我们用 superset 做 BI ,最复杂的就是各 SQL 了,虽然有模板,但维护起来还是很痛苦呀,楼主的产品如果能解决 SQL 编写这块,已经解决 BI 中最主要的矛盾了。
beneo
309 天前
@Braisdom FineBI ,PowerBI 没有么?
@lexa 本质上你公司就是想白嫖,开源的用的不爽,想嫖 B 兄弟的,QuickBI 不香吗?
Braisdom
309 天前
@beneo Agile Query 只需要一个函数就可以实现,

SEGMENT(
CASE
WHEN MONTH_DIFF(NOW(), MAX(orders.order_date)) < 2
AND SUM(order_details.quantity * order_details.unit_price) > 1000
AND COUNT(orders.order_id) > 10 THEN '高价值客户'
WHEN DAY_DIFF(NOW(), MAX(orders.order_date)) < 50
AND SUM(order_details.quantity * order_details.unit_price) > 100 THEN '重要发展客户'
WHEN MONTH_DIFF(NOW(), MAX(orders.order_date)) > 4
AND SUM(order_details.quantity * order_details.unit_price) > 400 THEN '重要挽留客户'
ELSE '其它'
END,
customers.customer_id,
orders.order_date = LAST_YEARS(1)
)

FineBI 的: https://help.fanruan.com/finebi/doc-view-703.html

PowerBI 的: https://zhuanlan.zhihu.com/p/220408371

Agile Query 本质上和 PowerBI 比较接近,FineBI 的就差太远了。
Braisdom
309 天前
@beneo 上面的确是一种 DSL ,只不过这类 DSL 更接近领域问题,使用起来更加方便。

建议去看一下: https://www.agiquery.com/blog/rfm/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1012446

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX