V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leiuu
V2EX  ›  程序员

dolphinscheduler 调度器大家有用过没

  •  
  •   leiuu · 2022-05-08 02:04:47 +08:00 · 2761 次点击
    这是一个创建于 926 天前的主题,其中的信息可能已经有所发展或是发生改变。

    试用了一下,感觉设计欠缺很多,坑太多了😂 口号吹的很响亮...

    11 条回复    2022-05-09 12:57:10 +08:00
    liprais
        1
    liprais  
       2022-05-08 02:09:39 +08:00 via iPhone
    他另外的两个 apache 项目也都是一泡污
    kaichen
        2
    kaichen  
       2022-05-08 08:24:31 +08:00
    印象不好

    - 自动化程度低,仅仅提供 vb 式拖拽界面
    - 不够云原生,很多能力并不是通过依赖外部组合实现,而是基本自己实现,比如监控
    - 外部集成能力差,没有插件系统,数据输出,监控等感觉是定制化写死
    - 社区差,你几乎很难找到大量讨论
    - 土土国企风,从界面排版字体,都感觉像十多年前的设计

    建议有需要 etl 调度工具,用 airflow ,可编程,高度集成,社区繁荣
    pengtdyd
        3
    pengtdyd  
       2022-05-08 10:02:34 +08:00
    国内开源的东西尽量不要用!!!
    leiuu
        4
    leiuu  
    OP
       2022-05-08 18:48:37 +08:00
    @liprais 哪两个,大佬。

    @kaichen 不能更同意。😂
    很多功能不应该聚集在调度器身上,借助 grafana 等实现监控很容易。
    3.0 还要加数据质量校验啥的,感觉更是跑偏了。
    界面太丑了!
    有更好的推荐没,例如想基于 k8s 搭建。


    @pengtdyd 本来想支持一把国产,实在...哎
    SbloodyS
        5
    SbloodyS  
       2022-05-08 19:57:41 +08:00
    DS 专注于大数据工作流调度,DQC(数据质量) 是数仓调度很重要的一个环节,各个厂的数仓只要对数据质量有一定要求的,或多或少都会对工作流调度进行数据质量监控,这是大势所趋
    leiuu
        6
    leiuu  
    OP
       2022-05-08 21:46:55 +08:00
    @SbloodyS
    谢谢。
    作为一个非贡献者,只能嘴炮一下。
    调研过一些时间,实际用发现坑挺多,挺失望,所以多说几句。
    以下主要为了交流使用观点,非针对个人,无需挂心。

    数据质量这些新模块可以加,这是社区的团队自己定的。

    我寻思 DS 要是想发力可以试着下决心重做 UI &优化交互&去掉一些不必要的可视化、尝试拥抱云原生、代码化 workflow 、自动部署、完善文档、修修 bug 啥的。

    举几个使用中发现的问题:
    1. 设置 workflow crontab ,会弹出一个丑丑的界面,有些其实简单 UI 更容易理解和增加美观度...
    2. 调用一个外部 shell 脚本并传入动态参数,找了很多文档没找到...,找到如何传参了但试用半天无法获取到值,最后发现是 workflow 参数自动将大写转为了小写
    3. 任务状态统计、流程状态统计、工作流关系的可视化作用是负的
    其他很多不一一列举。

    夯实现有功能、提高品味,真的能让这个项目长足进步,加新功能对 PR 有作用,但对项目的实际口碑就...
    对于数据领域来说,近几年能看到很多海豚的宣传,对有一个在这领域踏足的国产项目感到高兴,真心希望这个项目能变好。
    SbloodyS
        7
    SbloodyS  
       2022-05-08 22:08:22 +08:00
    @leiuu
    你提的问题确实都存在,我也遇到过更多其他类似的问题。


    目前因为社区长期贡献者严重不足(据我所知长期的不足 10 个),一些非主流程的功能由一些新晋的贡献者贡献后,贡献者就不再维护了,这就产生了很多遗留问题...


    我本身虽然是贡献者,同时也是用户,个人时间有限,用不到的功能也没过多去尝试并且修复...


    目前我了解到的开源软件不论国内还是国外都存在着类似的问题,大多都依靠社区的贡献者们用爱发电,解决问题的关键是如何扩大社区长期贡献者的人数...
    leiuu
        8
    leiuu  
    OP
       2022-05-08 22:14:12 +08:00
    @SbloodyS
    10 人常驻 人手短缺的话能理解 海豚本身声量还是挺大的 希望可以变得更好 小 bug 后续有机会贡献一下
    UI 那块爱莫能助 真心希望下决心重做...
    SbloodyS
        9
    SbloodyS  
       2022-05-08 22:25:23 +08:00
    @leiuu
    欢迎贡献,哈哈

    前端的长期贡献者相比后端的更少,UI 体验的优化可能短期内不太可能有太大的改观

    开源软件我理解都是没有十全十美的,想要使用体验更好更多还是需要自己动手丰衣足食,比如我正在使用的 Apache Ranger ,其中 Trino 350+ plugin 社区里很多人提了一年多了依旧没实现,最后还得自己来实现一个...
    kaichen
        10
    kaichen  
       2022-05-09 00:13:43 +08:00
    @leiuu

    贴一下我的 airflow 调研笔记,基本上如果是我来做技术选型肯定是 airflow + 对应 cloud 上 data tool

    - [Apache Airflow Documentation — Airflow Documentation]( https://airflow.apache.org/docs/apache-airflow/stable/)
    - [GitHub - apache/airflow: Apache Airflow - A platform to programmatically author, schedule, and monitor workflows]( https://github.com/apache/airflow)
    - [社区支持]( https://airflow.apache.org/ecosystem/)非常好
    - 有 [awesome list]( https://github.com/jghoman/awesome-apache-airflow),有很多讲述最佳实践的文章
    - github 搜索超过 9000 相关仓库
    - 云厂商支持好,如 [[Google Cloud]], [[Amazon]]
    - 有书,有[开发者大会]( https://airflowsummit.org),有 Meetup ,有[播客]( https://www.astronomer.io/podcast/),有专门的 Youtube 频道,有 Udemy 上的培训课程
    - 大量科技企业的选择,并且有创业项目围绕它做数据服务平台
    - Twitter: [Productionizing ML with workflows at Twitter]( https://blog.twitter.com/engineering/en_us/topics/insights/2018/ml-workflows.html)
    - [[Robinhood]]: [Why Robinhood uses Airflow. Robinhood relies on batch processing… | by Vineet Goel | Robinhood]( https://robinhood.engineering/why-robinhood-uses-airflow-aed13a9a90c8), [Upgrading & Scaling Airflow at Robinhood | by Abhishek Ray | Robinhood]( https://robinhood.engineering/upgrading-scaling-airflow-at-robinhood-5b625dfaa2ee)
    - Gitlab: [dags · master · GitLab Data / GitLab Data Team · GitLab]( https://gitlab.com/gitlab-data/analytics/-/tree/master/dags)
    leiuu
        11
    leiuu  
    OP
       2022-05-09 12:57:10 +08:00
    @kaichen
    👍 整理的真不错,收藏了。airflow 界面好看,用代码维护 workflow 不错,文档也很全。
    另外最近发现还有一个 argo workflow ,融合云原生更进一步。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5869 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:25 · PVG 14:25 · LAX 22:25 · JFK 01:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.