V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ysn2233
V2EX  ›  问与答

有了解数据湖和 hudi 到底是什么关系的吗?

  •  
  •   ysn2233 · 2021-09-23 20:02:30 +08:00 · 1219 次点击
    这是一个创建于 1158 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在调研"数据湖",发现这个概念真的很抽像,网上大多数定义是,一个可以存放各种类型,结构化或者非结构化原始数据的大仓库。

    然后 Hudi 各种和数据湖绑在一起,但是经过学习,我又感觉 Hudi 只是一种支持 acid,upsert/delete 和 cdc 加强版 hive,依然需要在写入时定义 schema,实在是 get 不到和所说的数据湖有什么关系。

    4 条回复    2021-09-23 23:39:04 +08:00
    whileFalse
        1
    whileFalse  
       2021-09-23 20:55:13 +08:00
    数据湖就是让 hadoop 能用的一个文件存储系统。

    比如因为有一些软件能让 hadoop 读 /写 s3 中的文件,而 s3 又是无限容量的,所以 s3 可以当作数据湖。
    SbloodyS
        2
    SbloodyS  
       2021-09-23 22:53:18 +08:00
    hudi 批处理性能不太行
    Rocketer
        3
    Rocketer  
       2021-09-23 23:08:05 +08:00 via iPhone
    我做过一个所谓数据湖的项目,就是输入端接纳各种数据源,输出端则要转化为一种可查询的的格式,以供数据消费者检索。

    用 AWS 的几个服务组合一下就实现了,并不难,但我还是觉得这跟 ETL 没啥区别。
    lithiumii
        4
    lithiumii  
       2021-09-23 23:39:04 +08:00 via Android
    我是这么理解的:
    以前,数据要定义好类型、关系等等,再按照范式存起来,这个叫数据库。
    后来啥都不管了,连文件格式都不管了,先存起来再说,就起个名字叫数据湖,意思是啥都在湖里,需要啥现场捞就是了。但毕竟还是要用来查询的,所以不能真的啥都不管,还是需要一定程度的标准化,所以……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1431 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:00 · PVG 08:00 · LAX 16:00 · JFK 19:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.