V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
BrightLiao
V2EX  ›  程序员

数据任务流水线如何设计?供做数据开发的同学们参考。

  •  
  •   BrightLiao ·
    gmlove · 2022-12-30 15:40:29 +08:00 · 1195 次点击
    这是一个创建于 724 天前的主题,其中的信息可能已经有所发展或是发生改变。

    分析数据任务的各个步骤,可以发现需要设计三条数据流水线:

    一、定期(如每天)自动触发的数据任务流水线,它将完成定期的数据接入,清洗,指标计算,宽表构建,宽表输出这一系列任务。这一流水线通常是端到端可输出指标结果的流水线。

    二、首次全量数据接入任务流水线,用于第一次将全量数据接入到数据平台。它应该是手动触发的。

    三、与定期自动运行的流水线相同的,但只能手动触发运行的一条流水线。这一流水线的引入是必要的,因为它可以很好的应对日常数据开发运维工作。

    数据流水线

    如何实现?详情请移步: https://brightliao.com/#/NDE2MWE1

    1 条回复    2022-12-31 22:33:27 +08:00
    jones2000
        1
    jones2000  
       2022-12-31 22:33:27 +08:00
    太简单了。
    1. 不同数据库( DB2, oracle ,mysql 等数据库)之间的数据同步,转档。
    2. 原始数据格式化(原始数据包含 PDF, word ,excel 等等, 如果上市公司财报)
    3. 双路实时数据采集,一天最少 2T 的交易数据,实时入库,对接各种分析指标, 实时预警,自动触发交易策略下单。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1147 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:31 · PVG 02:31 · LAX 10:31 · JFK 13:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.