前阵子由于项目需要学习了 kettle 用于数据对接,觉得蛮强大的,而且还是开源的。
了解了一下甚至有专门做数据对接的公司。
然而现在公司的规划是做一个数据集成平台用于公司的各个产品线,主要是用于数据对接。研究了下现在做 ETL 的公司的产品,以及一些 ETL 调度平台感觉要做还是能做的蛮复杂的,表示毫无思路,想基于 kettle 做二次开发 ,但不知该从哪里下手。
有接触过这方面的能指点一二否?
1
saharabear 2015-10-21 11:52:46 +08:00
Kettle 应该是很强大了。我也在研究 Kettle ,但是时间不多,进展缓慢。
|
2
shakoon 2015-10-21 12:02:08 +08:00 1
前几年做过 ETL ,但用的是商业产品( Datastage ),但猜想和其他产品业务逻辑上是相同的。看你描述,相当于是建设一个小型的仓库。最简单的方式就是直接把各个系统的源表整个导入到仓库,然后在仓库这边再来自己慢慢折腾,建主题域整合、统一编码转换什么的
|
3
MozzieCN 2015-10-21 12:53:01 +08:00
Kettle 的二次开发挺简单的。 不算太复杂 。
至于调度 , 建议是自己上个调度平台吧。 |
4
DRcoding OP @saharabear 也是工作上用到了才去研究了下,又从 kettle 看了下 BI 方面的数据仓库数据数据集成方面的东西。发现做 ETL 方面的大都是些封闭的金融行业,估计他们不上 V 站,哈~
|
5
DRcoding OP @shakoon 嗯 是的,数据仓库方面未曾涉及多少,搜了部分资料,大都在扯大方面的理论,并未讲太多具体,还得研究下,:)
|
6
cloud107202 2015-10-21 14:11:41 +08:00 1
二次开发大多是新组件开发(trans/job 中的 step),
dc 调度相关的话, kettle 自己封装了 servlet 接口 http://wiki.pentaho.com/display/EAI/Carte+Web+Services |
7
DRcoding OP @MozzieCN 如果只是在后台调用转换和作业倒是没什么复杂,主要是二次开发涉及 kettle 界面的修改或者新增一些功能组件,这方面我倒是没有从官方文档找到太多有用的东西,你是怎么做的呢?
调度平台的话看过一些如 Control-M 都已快没落的没维护了~ 好忧桑的造轮子的赶脚。 |
8
MozzieCN 2015-10-21 17:22:16 +08:00 1
@DRcoding 组件挺好开发的。记得 Kettle 官方是有个文档 Demo 的。
按照他的例子很快就能上手 。那年我们开发了 N 多的组件。。包括修改 原有组件的 Bug...... |
9
MozzieCN 2015-10-21 17:24:20 +08:00
|
10
DRcoding OP |