预计算的时代该结束了

317 天前
 Braisdom
原文链接: https://www.agiquery.com/blog/precomputation-should-be-over

9660 次点击
所在节点    推广
77 条回复
Braisdom
315 天前
@pp3182429 理解非常到位,场景包装只是最简单的一部分,最核心的是 查询合并,查询重用,过度计算分解。
Braisdom
315 天前
@szdosar 预计算目前是最优的方案,大部分公司都是这样的方案,文章的目的是终结预计算模式。
bclerdx
315 天前
@Braisdom 那么,什么是创新?
Braisdom
315 天前
@bclerdx 创新的核心是一种 "高级分析型语言"
lexa
315 天前
@Braisdom 这块有开源的参考吗?查询合并,查询重用,过度计算分解
tikazyq
315 天前
Agile Query 会开源么?如果能做成像 Apache Superset 那样的项目很多公司使用就会有更多机会进行产品优化了。据我所在的行业来看,微软体系下的 PowerBI 是首选。
Braisdom
315 天前
@tikazyq 是的 PowerBI 目前是复杂分析的首选,但使用复杂度也比较高,而且是自有的计算引擎,开源的 superset 类的 BI 的开发成本还是有点高的,使用的,大都数还是技术型公司,像国内的帆软,永洪存在的问题就更多了。

Agile Query 是处于中间位置,既能解决 PowerBI 的问题,同样能解决 superset, redash, metabase 的问题。这是我们的定位。
lexa
315 天前
@Braisdom 楼群主想的比较全面,希望写更多文章,想学习一下。
zuston
315 天前
其实,更进一步,直接 text -> SQL 或者 AI 直接自动探查数据价值?粗粗理解下,感觉目前这个 dsl 处于不上不下的阶段
tikazyq
315 天前
@Braisdom 说实话,目前从 demo 视频上来看,很 superset 没有什么本质的区别,也离 PowerBI 有很大差距,不管是从可视化和 ETL 方面来说。但毕竟是个人开发的,因此功能迭代肯定不会像微软、Tableau 之类的那么快。建议还是尽可能开源出来,结合社区的力量打造产品。Superset 这样的开源产品缺点非常多,我也希望能有一个更强大的 BI 开源项目出来
Braisdom
315 天前
@zuston DSL 应该的文本与 SQL 之间的语言,想通过自然语言描述统计规则还是很难的,有很多复杂的统计只能通过标记语言定义。
Braisdom
315 天前
@tikazyq 和 superset 的区别很大,至少不需要写 SQL 就可以实现复杂统计,和 PowerBI 肯定有距离,我们还在努力。
bzzhou
315 天前
哥们,我看了一下,认为可能还是有点闭门造车了。

首先,数据分析师如果不会 SQL 的,那么基本上也不用指望会学会你的 DSL (而且你认为你的 DSL 简单,是因为你自己设计出来的;但是一个完全没看到你的 DSL 的,他可能宁愿去学 SQL )。

其次,如果你要定义一个全新的分析师语言,只能说这个难度很大(至少对于创业团队来说)。而且我觉得有这个需求的分析师,可能用 Python + Pandas + SQL 会是一个更好的组合。

建议这个阶段,可以找一些种子用户,看看他们愿意去学+使用不,多听听他们的反馈。
Braisdom
315 天前
@tikazyq 目前有好多商业公司在做这块,也都在想办法攻克核心算法,暂时不打算开源。先跑一段时间再说。
Braisdom
315 天前
@bzzhou 如果数据分析师会用 Excel 的函数,就可以了,我们的函数和 Excel 一样。
tikazyq
315 天前
@Braisdom 你这个有 demo 网站可以访问么?
Braisdom
315 天前
@bzzhou 只不过 Excel 的函数大都是单表分析,多表分析还是比较复杂的。
bzzhou
315 天前
@Braisdom 我的建议还是最好找几个种子用户,看看他们愿意学+使用不。如果 10 个人里面,有 1~2 个用起来了,那么恭喜;否则听听他们的反馈。
sampeng
315 天前
我觉得做技术不能光做技术。还是要考虑点别的。

横竖你是不考虑成本的,但这通常又是选型中的重点。

就我自己身边的统计学来看,如果只是集中怎么查。怎么说呢。起步做大数据分析的时候考虑,但是不重要,只要满足 MVP 功能要求,这个事就算起步了,kpi 就算完成了,前端只要有时间随时可以换。在选型过程中反而最怕选这类没什么公司用过的。后面数据多了,就跳进去出不来了。学习成本是最大的成本,这是在很多做决策的人都明白的道理。这也是为什么最近出现的产品绝大部分是即支持自己的 DSL 又支持 SQL 。这是学习成本的一方面,另一方面,计算引擎和算法确实是核心,但是使用者不关心,作为大数据平台还关心一点:我能不能把这玩意很方便接入到别的平台上去。
metabase ,superset 这类就选起来没什么压力,不好用换一个就是了,想两套展示,一套研发自己看,一套给领导看。数据展示平台直接支持 sql 接入,轻轻松松,没工作压力。来个 dsl ?你要说服决策者会有很大的阻力。

对于决策选型的人来说,不会考虑实现细节。就几点:
1.能不能满足数据分析需求
2.成本多少。和别的技术比起来成本差异怎么样。成本包含计算成本,存储成本,人力成本和学习成本。
3.扩展性,n 年后,有新的技术出现,现在这个选型会不会成为阻碍。

OP 的产品只回答了第一个问题。

预计算成本在大数据+云平台的情况下成本只有存储成本。极其低廉。
绝大多数数据,早上跑个把小时,所有计算资源就可以释放了。只有少量的数据需要实时分析,这是实时分析的舞台。因为在这个博客里面有这么一句:“人工是最贵的开销。”。这句话我以前是信的,当然,现在用来推脱一些不想做的事也会说这句话。但这句话对于 99%国内公司不成立,人工反而是最便宜的开销。如果你现在就是 CEO 。。。你做几年老板就知道了。
sampeng
315 天前
PS 一句。。刚顺手按回复了。

你这个无非就是一个 sql 的语法糖。那么问题来了,这个和预计算有啥必要的关系吗??硬联系在一起?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1012446

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX