求助,异构数据实时采集方案

2019-08-01 14:11:47 +08:00
 greenman0007

目前公司在做的一个项目需要对接第三方系统的数据,获取完数据都进行加工成标准化的数据存储,现在要考虑怎么整合接入不同的第三方系统,我简要画了个流程图,大致设想如下图:

现在不知道有没有成熟的方案,或者应该按什么关键词搜索?

要求:

  1. 第三方系统对接形式不确定,目前有数据库视图(存储过程),webservice 接口,http 接口
  2. 第三方系统均为实时数据,可以假定都存储于 RDBMS
  3. 业务系统要能实时查询到数据(秒级)
  4. 仅限于 java 语言
3840 次点击
所在节点    Java
12 条回复
xio
2019-08-01 17:46:19 +08:00
ETL ?
greenman0007
2019-08-01 17:53:01 +08:00
@xio 类似 ETL,但是我这种源数据是实时增加的,而且需要程序自动抓取
jingxyy
2019-08-01 17:53:57 +08:00
ELK 套装也许是你想要的 不过这一套偏向于检索 加工这一块比较弱
xio
2019-08-01 18:03:23 +08:00
@greenman0007 那你可以用队列做数据源啊。。抓取后进队列,ETL 消费队列不就好了么??
iPhoneXI
2019-08-01 18:04:07 +08:00
kafka ?
xio
2019-08-01 18:06:29 +08:00
@greenman0007 哦,好吧。。我理解错误
arrow8899
2019-08-01 18:07:10 +08:00
不同的数据源实现一个专门的采集器,然后转化成标准的数据格式就行了,你图上都画出来了;至于采集,直接使用定时任务就行了吧。
greenman0007
2019-08-01 18:31:26 +08:00
@jingxyy 新增的数据怎么办,能自动抓取吗?有推荐的么?
greenman0007
2019-08-01 18:32:44 +08:00
@arrow8899 定时任务做的话,如果时间间隔太短,可能会对第三方系统有影响,间隔太长,数据延迟太严重
arrow8899
2019-08-01 20:42:16 +08:00
@greenman0007 这个就要看外部系统能不能把数据直接推送给你吧,不支持的话只能定时主动拉取
greenman0007
2019-08-02 10:29:42 +08:00
@arrow8899 只能主动拉,定时增量拉的话,有一些问题,比如已经拉取的数据在外部系统被修改了,怎么监测到?这样的话是不是就每次得全量拉了?
snappyone
2019-08-02 14:45:27 +08:00
@greenman0007 按照时间戳去定时拉取,然后按照主键合并到自己系统

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/588192

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX