企业数据仓库质量不高,数据质量建设跟不上业务发展,最后慢慢拖累业务。此外 IT 人员良莠不齐等等问题,都是当前数仓建模的痛点问题。 企业内有各种 dws 表支撑着各种业务需求。然后借住 ETL 工具每天自动维护。很多 dws 之间存在很大的重复性,但是通常只要 ETL 时间在接受范围内,很少有人去优化(当然也没必要优化)但是很快就会发现 ETL 时间过长,T+1 都可能不够了,此时发现很多很难改动了。目前很多企业通过数据湖来增加数据实时性,同时降低 ETL 压力,这是一个很好的方向。但是需要对于企业数据底座进行改造,算上实施和配套人员,成本不低。
我的想法是,利用大模型通过行业建模数据和企业业务数据进行泛化。通过 AI 得出哪些 ETL 有公共计算,并且将公共计算的结果落表,这个操作是提效的,最终通过空间换时间。
我和几个客户 IT 部门也聊过,他们也觉得如果可落地还是非常解决问题的。可问题是我找了一圈,好像没发现有做相关的(唯一有点关系的是,杭州那有阿里出来的好像在做,方向一致但是解决方案不是完全利用 AI ,是通过改写计算的 AST 树减少 ETL 计算),这就很郁闷了。会不会是现在大模型可商用的不多,应用成本还是太高,还没到 2b 应用大模型的时候。
大家怎么看这个。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.