数据中台目前都是怎么的技术架构

24 天前
 zhuwd
公司也要搞所谓的数据中台了,想少踩几个坑,向 V 友们请教学习
6650 次点击
所在节点    程序员
55 条回复
zhuwd
24 天前
@chendy #17 我们刚开始被折腾 😅😅
Simle100
24 天前
现在还有吹中台的呀?我前些阵子接到售前的最新消息是:中台已经成过去式了,现在大家开始讲 AI 、大模型,这些成了拿下项目的关键因素。
monkeyfx
24 天前
18 年在某大厂做数据中台,但是没搞几年就开始拆中台了,现在提中台这个概念的确有点 49 年入国军的感觉。
yingqi1
24 天前
推荐看一下 Fundamentals of Data Engineering, 有一个章节说如何开始搭建仓库/数据管理等,怎么才能少踩坑,针对不同公司有什么最佳实践。
haisua
24 天前
我接触过一些数据类系统(本人产品岗),在我看来,啥架构都问题不大,经验教训是更多在于数据源的规范整理,数据清洗问题。只要数据处理干净了,后面怎么折腾都行。就不说大公司多业务线了,很多小公司就那点数据源都乱七八糟的。
A555
24 天前
公司中台团队都砍了
我就是被砍的
Finder2023
24 天前
@monkeyfx 能请教下拆中台是怎么个拆法,这是必定会经历的生命周期吗
murmur
24 天前
@Finder2023 中台就是名字而已,当你基础组件用的够多了,画个圈就叫中台

实际上就企业办公那点规模根本用不到什么微服务容器化,就虚机+spring boot 挺好的
whp1473
24 天前
数据中台本身模块:数据集成、数据开发、数据运维、数据服务、算法开发、数据治理、数据安全、数据可视化,背后可能还会有大数据集群,涉及技术主要是:SpringBoot 、SSM 、Zookeeper 、Netty 、以及各种数据源 JDBC 处理,DAG 调度处理,SQL 语法解析,得熟悉各种引擎的特性和指标数据的采集,还有一些数仓的知识,其实就像个模型汇总、数据汇总、元数据汇总、任务和监控汇总、可视化汇总的地方— —
monkeyfx
24 天前
@Finder2023 从我的角度来看,单说数据中台这件事情,对于体量较大的公司来说,是有必要的。所谓中台这个概念,是企业级的能力复用平台,数据中台就是把数据当作资产集中管理使用,所以有了数据资产部这个组织。但是你要考虑到中国国情,分久必合合久必分,都是为了自己的功劳,要不然也不会有那么多重复建设的事情。至于说拆中台就非常简单了,根据自己业务特性挑挑拣拣就好。
Finder2023
24 天前
@monkeyfx 感谢回复,比方前司所在的数据中台组,是源 BI 组经历多次拆分出的结果,相比于一个系统拧全部的大头,分为 ETL 数据清洗 -> 数据统一管理的中台 -> 提供业务支持的后台(例报表可视化分析)无可厚非,是公司统一管理数据资产和提供业务支持不可避免的过程。我的理解比较浅薄,既然中台涉及到企业级(体量较大的)的能力复用平台,应该是属于基建范畴,对于我们开发个人来说,这种项目组的不稳定性和风险在哪呢,如何像答主所说的 49 年入国军的描述
murmur
24 天前
@Finder2023 中台的技术很成熟,难点在数据治理,要求大家用统一的数据源,是要改造,而且成本很高的

有些子公司他们是自己买了自己的数据源,集成都做好了,你突然要求别人改数据源,人家肯定不乐意
Finder2023
24 天前
@murmur 恍然大悟,感谢回复🙏
xwayway
24 天前
@zhuwd #5 哈哈,和我们公司一样诶。我们目标是这个,然后搞成了数据仓库 + 大屏。然后加各种审批流,分成内部数据和对上级集团上报数据。现在还在苦苦挣扎,全力奋战 6.30 节点。
Morii
24 天前
数据监控,埋点、调度、hive+ hadoop + 加密 + 数据权限 + 元数据管理 + olap + 查询工具+可配置的报表系统,基本就这些东西,大差不差
migu
24 天前
啊?我们早上也刚说要弄,这大数据也太夸张了(开个玩笑

不过我们小公司,做的也是小项目,涉及不了太复杂的东西,这篇帖子先狠狠的 mark 了
wanqiangcrack
24 天前
现在都没人做中台了,现在是做数据治理。
SmartTom
24 天前
datax
xueling
24 天前
首先我觉得有些朋友可能有两个误区,我说一下我的理解。
1 、阿里拆的中台更多的是”业务层面上的中台“,比如将很多业务的下单功能、订单列表查询功能、列表推荐功能、购物车功能等统一成中台服务,而楼主所说的数据中台是”技术层面的中台“,所以严格来说这里的”中台“并不是一个概念。
2 、数据中台是不是只围绕着数据的统计分析方面功能?不是。这只是它的一部分功能,从概念上来讲,使用一些实时、离线、OLAP 框架搭建起的数据统计分析任务或接入一些 BI 工具,是不能称它就是数据中台的。

数据中台的功能主要有三类:一是业务数据治理,二是围绕着业务数据进行的各种实时、离线和即席查询任务的管理、调度和维护,三是数据化运营。
1 、业务数据治理。有些公司将业务数据和业务统计分析类数据都统称为业务数据(比如订单数据和订单的统计分析数据),我觉得这不太合理,因为两者有本质的不同(技术实现方案以及数据应用场景不同),混为一谈其实容易影响数据中台的架构设计。
业务数据治理是提供业务方自身数据的写入(实时或离线)、存储和查询功能,围绕着这些基本功能再衍生出:元数据管理、业务数据清洗、业务表的上下游关系管理、业务表的权限管理等。
还有一个误区,公司要搭建数据中台,那公司目前的技术架构是要推翻重构还是维持不变。大多数情况下是不需要推翻重构的,当然也不能维持一点不变。而是要进行一些”整合“。整合就是梳理出公司内部具有较高共享价值的业务数据,在基本维持他们技术方案不变或微小改变的前提下,将它们的存储库或存储库的镜像库迁移到”中台“当中来,从而减少数据共享过程中使用数据的成本。
2 、围绕着业务数据进行的各种实时、离线和即席查询任务。这一部分的基本功能是建立统一的数据任务调度平台,比如实时( spark/flink 等),离线(spark/mr 等)和即席查询(ck/hive/doris 等),应用场景:比如实时画像任务、实时日志接收、订单的多维分析等。这一部分功能又衍生出一些功能,比如统一的消息接入服务、与上面业务数据和下面数据化运营互相打通的业务数据读取、写入和统计指标数据读取、写入的机制。
3 、数据化运营,数据化运营是提供企业运营过程中的各类统计分析指标,技术方案主要有各种实时、离线、olap 方案,这一部分又衍生出统一的埋点服务、数据指标可视化等相关功能。数据化运营可以使用一下我的开源框架: https://github.com/xl-xueling/xl-lighthouse ,可以减少很多实现成本。
wohenchang
24 天前
现在数据量都不大,叫中台就是一个噱头,跟 ai 一个道理,本质还是一个数据呈现,看板展示的过程。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1046871

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX