用 golang 的做一个 pipeline | ETL 问题有什么好的设计?

2021-04-09 11:54:15 +08:00
 yellowmarlboro
有 N 个数据源,根据这 N 个数据源计算出 M 个结果,依赖关系简单如下,实际会略微复杂些,但一定是个有向无环图。
结果也有有可能会当成另外一个结果的'数据源'

    A     B
   / \   /
  /   \ /
 R1    R2     C
         \   /
          \ /
           R3

有一些问题
1223 次点击
所在节点    Go 编程语言
2 条回复
dayeye2006199
2021-04-09 12:29:17 +08:00
> 其他调用方会来调用我服务,调用的输入为字符串比如{"R2", "R3"}。
> 每次要计算的结果的数量是不确定的,其他调用方可能只要 R1 和 R2,那我就不想去调用 C 数据源了。

这个操作叫 Cull,是图优化的一种。具体做法就是,对你需要的输出,例如{"R2", "R3"},获得它们的所有依赖,和依赖的依赖... 然后将图里面不属于依赖的节点删除,就得到一个精简以后的 DAG 。

> 每个来调用接口的独立请求里,我这里的数据源我只想调用一次,比如我不想算 R1,R2 的时候获取两次 A 数据源,以及如果在算过 R2 之后,再去算 R3 的时候要再算一边 R2 。
我想从下往上算,比如 R3 的逻辑里里 go 出去 R2 和 C,R2 里再 go 出去 A 和 B,那我后续算 R1 的时候,怎么直接取刚刚算 R2 时的获取过的 A,A 写成单例?只要被调用后,再次被调用返回数据源? -当然还有其他的,比如错误中断之类。

计算的顺序可以将所有节点按照依赖关系进行拓扑排序,就可以保证一个节点计算的时候,它的所有依赖节点都是被计算过的。
计算过的节点的结果,可以用个 dict 保存一下,下次需要的时候直接按照节点名称取出就不会重新触发计算了。
yellowmarlboro
2021-04-09 17:53:44 +08:00
@dayeye2006199 受教 非常感谢~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/769374

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX