试用了一下,感觉设计欠缺很多,坑太多了😂 口号吹的很响亮...
1
liprais 2022-05-08 02:09:39 +08:00 via iPhone
他另外的两个 apache 项目也都是一泡污
|
2
kaichen 2022-05-08 08:24:31 +08:00
印象不好
- 自动化程度低,仅仅提供 vb 式拖拽界面 - 不够云原生,很多能力并不是通过依赖外部组合实现,而是基本自己实现,比如监控 - 外部集成能力差,没有插件系统,数据输出,监控等感觉是定制化写死 - 社区差,你几乎很难找到大量讨论 - 土土国企风,从界面排版字体,都感觉像十多年前的设计 建议有需要 etl 调度工具,用 airflow ,可编程,高度集成,社区繁荣 |
3
pengtdyd 2022-05-08 10:02:34 +08:00
国内开源的东西尽量不要用!!!
|
4
leiuu OP |
5
SbloodyS 2022-05-08 19:57:41 +08:00
DS 专注于大数据工作流调度,DQC(数据质量) 是数仓调度很重要的一个环节,各个厂的数仓只要对数据质量有一定要求的,或多或少都会对工作流调度进行数据质量监控,这是大势所趋
|
6
leiuu OP @SbloodyS
谢谢。 作为一个非贡献者,只能嘴炮一下。 调研过一些时间,实际用发现坑挺多,挺失望,所以多说几句。 以下主要为了交流使用观点,非针对个人,无需挂心。 数据质量这些新模块可以加,这是社区的团队自己定的。 我寻思 DS 要是想发力可以试着下决心重做 UI &优化交互&去掉一些不必要的可视化、尝试拥抱云原生、代码化 workflow 、自动部署、完善文档、修修 bug 啥的。 举几个使用中发现的问题: 1. 设置 workflow crontab ,会弹出一个丑丑的界面,有些其实简单 UI 更容易理解和增加美观度... 2. 调用一个外部 shell 脚本并传入动态参数,找了很多文档没找到...,找到如何传参了但试用半天无法获取到值,最后发现是 workflow 参数自动将大写转为了小写 3. 任务状态统计、流程状态统计、工作流关系的可视化作用是负的 其他很多不一一列举。 夯实现有功能、提高品味,真的能让这个项目长足进步,加新功能对 PR 有作用,但对项目的实际口碑就... 对于数据领域来说,近几年能看到很多海豚的宣传,对有一个在这领域踏足的国产项目感到高兴,真心希望这个项目能变好。 |
7
SbloodyS 2022-05-08 22:08:22 +08:00
@leiuu
你提的问题确实都存在,我也遇到过更多其他类似的问题。 目前因为社区长期贡献者严重不足(据我所知长期的不足 10 个),一些非主流程的功能由一些新晋的贡献者贡献后,贡献者就不再维护了,这就产生了很多遗留问题... 我本身虽然是贡献者,同时也是用户,个人时间有限,用不到的功能也没过多去尝试并且修复... 目前我了解到的开源软件不论国内还是国外都存在着类似的问题,大多都依靠社区的贡献者们用爱发电,解决问题的关键是如何扩大社区长期贡献者的人数... |
8
leiuu OP |
9
SbloodyS 2022-05-08 22:25:23 +08:00
@leiuu
欢迎贡献,哈哈 前端的长期贡献者相比后端的更少,UI 体验的优化可能短期内不太可能有太大的改观 开源软件我理解都是没有十全十美的,想要使用体验更好更多还是需要自己动手丰衣足食,比如我正在使用的 Apache Ranger ,其中 Trino 350+ plugin 社区里很多人提了一年多了依旧没实现,最后还得自己来实现一个... |
10
kaichen 2022-05-09 00:13:43 +08:00
@leiuu
贴一下我的 airflow 调研笔记,基本上如果是我来做技术选型肯定是 airflow + 对应 cloud 上 data tool - [Apache Airflow Documentation — Airflow Documentation]( https://airflow.apache.org/docs/apache-airflow/stable/) - [GitHub - apache/airflow: Apache Airflow - A platform to programmatically author, schedule, and monitor workflows]( https://github.com/apache/airflow) - [社区支持]( https://airflow.apache.org/ecosystem/)非常好 - 有 [awesome list]( https://github.com/jghoman/awesome-apache-airflow),有很多讲述最佳实践的文章 - github 搜索超过 9000 相关仓库 - 云厂商支持好,如 [[Google Cloud]], [[Amazon]] - 有书,有[开发者大会]( https://airflowsummit.org),有 Meetup ,有[播客]( https://www.astronomer.io/podcast/),有专门的 Youtube 频道,有 Udemy 上的培训课程 - 大量科技企业的选择,并且有创业项目围绕它做数据服务平台 - Twitter: [Productionizing ML with workflows at Twitter]( https://blog.twitter.com/engineering/en_us/topics/insights/2018/ml-workflows.html) - [[Robinhood]]: [Why Robinhood uses Airflow. Robinhood relies on batch processing… | by Vineet Goel | Robinhood]( https://robinhood.engineering/why-robinhood-uses-airflow-aed13a9a90c8), [Upgrading & Scaling Airflow at Robinhood | by Abhishek Ray | Robinhood]( https://robinhood.engineering/upgrading-scaling-airflow-at-robinhood-5b625dfaa2ee) - Gitlab: [dags · master · GitLab Data / GitLab Data Team · GitLab]( https://gitlab.com/gitlab-data/analytics/-/tree/master/dags) |