有了解 ETL 工具的吗?

2015-10-21 11:44:05 +08:00
 DRcoding

前阵子由于项目需要学习了 kettle 用于数据对接,觉得蛮强大的,而且还是开源的。

了解了一下甚至有专门做数据对接的公司。

然而现在公司的规划是做一个数据集成平台用于公司的各个产品线,主要是用于数据对接。研究了下现在做 ETL 的公司的产品,以及一些 ETL 调度平台感觉要做还是能做的蛮复杂的,表示毫无思路,想基于 kettle 做二次开发 ,但不知该从哪里下手。

有接触过这方面的能指点一二否?

2520 次点击
所在节点    问与答
10 条回复
saharabear
2015-10-21 11:52:46 +08:00
Kettle 应该是很强大了。我也在研究 Kettle ,但是时间不多,进展缓慢。
shakoon
2015-10-21 12:02:08 +08:00
前几年做过 ETL ,但用的是商业产品( Datastage ),但猜想和其他产品业务逻辑上是相同的。看你描述,相当于是建设一个小型的仓库。最简单的方式就是直接把各个系统的源表整个导入到仓库,然后在仓库这边再来自己慢慢折腾,建主题域整合、统一编码转换什么的
MozzieCN
2015-10-21 12:53:01 +08:00
Kettle 的二次开发挺简单的。 不算太复杂 。
至于调度 , 建议是自己上个调度平台吧。
DRcoding
2015-10-21 14:07:10 +08:00
@saharabear 也是工作上用到了才去研究了下,又从 kettle 看了下 BI 方面的数据仓库数据数据集成方面的东西。发现做 ETL 方面的大都是些封闭的金融行业,估计他们不上 V 站,哈~
DRcoding
2015-10-21 14:09:42 +08:00
@shakoon 嗯 是的,数据仓库方面未曾涉及多少,搜了部分资料,大都在扯大方面的理论,并未讲太多具体,还得研究下,:)
cloud107202
2015-10-21 14:11:41 +08:00
二次开发大多是新组件开发(trans/job 中的 step),
dc 调度相关的话, kettle 自己封装了 servlet 接口 http://wiki.pentaho.com/display/EAI/Carte+Web+Services
DRcoding
2015-10-21 14:17:52 +08:00
@MozzieCN 如果只是在后台调用转换和作业倒是没什么复杂,主要是二次开发涉及 kettle 界面的修改或者新增一些功能组件,这方面我倒是没有从官方文档找到太多有用的东西,你是怎么做的呢?

调度平台的话看过一些如 Control-M 都已快没落的没维护了~

好忧桑的造轮子的赶脚。
MozzieCN
2015-10-21 17:22:16 +08:00
@DRcoding 组件挺好开发的。记得 Kettle 官方是有个文档 Demo 的。
按照他的例子很快就能上手 。那年我们开发了 N 多的组件。。包括修改 原有组件的 Bug......
MozzieCN
2015-10-21 17:24:20 +08:00
DRcoding
2015-10-22 14:19:03 +08:00
@cloud107202 谢谢,我研究一下~

@MozzieCN 修改了原有组件的 bug ,有没有 commit 给官方~哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/229807

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX