咨询个 Flink cdc 数据同步的问题。

141 天前
 kkbear
目前的需求是这样的:
需要从不同的数据源或者 mq 队列来获取数据的变化,然后同步到数据仓库,再把数据清洗和整理成不同维度的中间表,最终再提供不同接口给不同的调用方获取统计数据。

另外数据同步的这些 job 、数据统计整理的任务调度、还有提供的 rest 接口等到需要整合到原来的一个 springboot 系统中。

现在考虑数据采集同步这块采用 Flink cdc 。问题在于纠结是新部署 flink 集群来处理,还是直接只把 flink cdc 整合到该 springboot 项目中。

如果放到 flink 集群中,怎么在原来的 springboot 项目中管理这些 job ?(启停/状态/同步的行数等)
如果整合到 springboot 中,部署多服务器节点,怎么保证数据不重复采集?
1288 次点击
所在节点    程序员
10 条回复
wuyiccc
141 天前
参考下 dlinky?
wuyiccc
141 天前
kkbear
141 天前
@wuyiccc 看了下,有点复杂。。。
wkhapy1233
141 天前
可以看看 dolphinscheduler ,相当于任务管理在 dolphinscheduler,springboot 通过 dolphinscheduler 来管理任务
Richared
141 天前
有 k8 集群么,有集群直接容器交互不行么?状态这些不能通过日志获取么。
he123
141 天前
为啥不买一个数据中台去做呢,考虑袋鼠云吗,物美价廉
llllllllllllllii
141 天前
非常不推荐 flinkcdc 和 springboot 结合,非常麻烦全是坑
kkbear
141 天前
@llllllllllllllii 你意思是还是部署 flink 集群?那作业有什么好的方法管理呢?
potatowish
141 天前
flinkcdc 和 springboot 结合是利用它提供的 datastream api 接口,不过不推荐,比较麻烦,用 flinksql 比较方便,还需要部署 flink 集群。

job 如果需要数据统计、管理,flink 有提供接口: https://nightlies.apache.org/flink/flink-docs-master/docs/ops/rest_api/

提交 job 既可以通过 SQL Client 命令行的方式提交,也可以起一个 flink 自带的 SQL Gateway 服务,通过 RestAPI 提交,https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/sql-gateway/overview/

以上接口整合到单独的 springboot 中,应该可以实现 job 管理
kkbear
140 天前
@potatowish 非常感谢,研究了一下,打算按这个思路弄了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1039031

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX