目前公司使用前置机部署的 kettle 抽取用户数据为标准模型格式,经过业务系统校验后,将校验成功的数据转存入数仓中。 目前只用了 kettle ,但是部署的前置机很多,每个库每个项目都需要部署一台前置机进行采集,而且无法监控采集结果,服务停了都不知道,导致数据断层严重。 校验系统需要配置字段校验规则。
目前主流 ETL 流程大概什么样子,有相应工具推荐吗,对多节点可能没有要求,这块不太清楚具体业务逻辑。有没有可以自定义校验规则或转换规则的开源系统。
有相关运维经验的麻烦给大概说说,尽量开源的,不尽感激!
目前听过的 flinkCDC ,airflow+dbt ,海豚调度,kettle 等。主语言 java ,哪个更适合以上业务呢。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.