自建数据湖方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Recommended Services

› Amazon Web Services

› LeanCloud

› New Relic

› ClearDB

这是一个创建于 600 天前的主题，其中的信息可能已经有所发展或是发生改变。

导师让做数据湖的大模型应用，但是我没有实际的数据湖可以用，有点无米之炊。各位老哥知道什么开源的基于 S3 协议的数据湖搭建方案吗？

第 1 条附言 · 2024-04-23 14:39:26 +08:00

AI Agent + RAG + 数据湖，不涉及大模型的训练。这个题目是甲方给的，导师也不懂，没安排和甲方沟通，让我在这想方案。s3/hdfs 是我自己琢磨的，我看数据湖一般会有一个存储系统，可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系，我都写 llamaindex 测过，但感觉这些查询系统放在湖里面有点强行了。

数据湖

开源

42 条回复

dayeye2006199

2024-04-23 09:48:53 +08:00 via Android

什么是数据湖的大模型应用？两个名词堆一块儿了？

ihnfsa

2024-04-23 09:55:54 +08:00

@dayeye2006199 我也只知道几个关键字，AI Agent + RAG + 数据湖

dog82

2024-04-23 09:56:22 +08:00

数据湖炒概念的成分更大，我没找到市面上的成功案例。我对国云数据的魔镜稍微了解一点，楼主去看看 http://www.moojnn.com/product-center/publicinto.html

ihnfsa

2024-04-23 09:57:35 +08:00

@dog82 好的，谢谢哥

yjhatfdu2

2024-04-23 10:18:15 +08:00

开源数据糊一般是指 apache hudi 、apache iceberg 和 delta lake ，但这玩意儿都还是适合写入为主，偶尔批量计算的场景，不适合实时查询，和 AI Agent 、RAG 有啥关系？

ihnfsa

2024-04-23 10:28:03 +08:00

@yjhatfdu2 我也没搞清楚，现在想的是能不能把 Text2SQL 用在湖上一些查询系统上，类似于这种 https://help.aliyun.com/zh/dms/release-the-ai-agent

CadonHo

2024-04-23 10:35:12 +08:00

数据湖就是一个存储，特点就是各种数据格式都能存。不过有一说一，大模型的应用不是应该往垂直领域找么，这个跟数据湖关系不大吧，数据湖就是大模型应用中的一个环节而已。

hero1874

2024-04-23 10:48:05 +08:00

数据湖和大模型这俩关系挂靠在一起，有点违和
看你上面说的 AI Agent + RAG + 数据湖
是把数据湖作为 RAG 的外部数据来源吗，数据湖里存一些非结构化的数据
数据湖可以看看 Apache Paimon 这个倒支持流式读写，批读写，也支持 S3

opengps

2024-04-23 10:49:02 +08:00

先把数据湖改个名，叫对象存储，理解起来瞬间容易不少

zlo309618100

2024-04-23 11:08:59 +08:00

啥是数据湖？文盲.jpg

roidinev

2024-04-23 11:12:05 +08:00

是啊，大模型的应用应该往垂直领域找。除非你想研究出论文：比如研究大模型对存储吞吐量/延迟的需求，优化数据湖等。

wheat0r

2024-04-23 11:12:59 +08:00

导师：我啥也不懂，你们弄好了挂我一作

ZGame

2024-04-23 11:15:39 +08:00

首先你要确定你的大模型需要的数据,再去考虑技术栈会不会合适点...

mightybruce

2024-04-23 11:18:45 +08:00

你的题目写得不对，数据湖和对象存储是两个东西
大模型应用和这个也没有关系。
要么导师误入子弟，要么导师没有说清楚，需要再次沟通。

sampeng

2024-04-23 11:19:45 +08:00

灰常简单啊。。
搭个 mysql 。咯。这就是数据糊

o562dsRcFqYl375i

2024-04-23 11:25:02 +08:00

@CadonHo 正解

yalin

2024-04-23 11:25:41 +08:00

AWS 云方案？

o562dsRcFqYl375i

2024-04-23 11:26:46 +08:00

@opengps 👍

c3de3f21

2024-04-23 11:28:19 +08:00

flink + paimon + trino [ connector + store + search]

c3de3f21

2024-04-23 11:29:41 +08:00

@c3de3f21 收了数据有了实时数据流喂给模型？练个大模型？真是不是你说的数据湖的大模型应用？应付一下吧

deorth

2024-04-23 11:39:47 +08:00 via Android

op：虽然完全不知道导师出的什么吊题目，但是我先问问网友

nullboy

2024-04-23 11:54:05 +08:00

"数据湖" 这名字听起来怎么感觉怪怪的

HughRyu

2024-04-23 12:19:08 +08:00

我个人理解 Datalake 就是各个 Dataware 的集合，不能为了强行推 Datalake 概念而堆砌 Dataware 。

ihnfsa

2024-04-23 12:31:27 +08:00 via Android

@deorth 哈哈哈是这样的，导师也不懂

ihnfsa

2024-04-23 12:34:23 +08:00 via Android

@opengps 我的理解是数据湖要有个持久化的存储系统，可以是对象存储，也可以是 hdfs 这种

ihnfsa

2024-04-23 12:35:12 +08:00 via Android

@hero1874 谢谢哥，我去看看

ihnfsa

2024-04-23 12:38:38 +08:00 via Android

@ZGame 只是用现成的大模型，我也不会微调什么的

ihnfsa

2024-04-23 12:48:58 +08:00 via Android

这个题目是甲方给的，导师也不懂，没安排和甲方沟通，让我在这想方案。s3/hdfs 是我自己琢磨的，我看数据湖一般会有一个存储系统，可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系，但感觉这些查询系统放在湖里面有点强行了。

VermouthcZzz

2024-04-23 13:55:40 +08:00

@ihnfsa 目前跟 AI/数据相关的似乎向量数据库符合你的要求
我最近在看向量搜索相关的内容分享给你希望你能获取一些灵感
https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6

mhycy

2024-04-23 13:59:56 +08:00

数据湖的大模型应用？是现有数据的 AI 标注再利用么？
这东西和数据湖没啥关系啊，反正是个信息量足够大的东西都能称之为湖
改个高大上名字罢了

cbythe434

2024-04-23 14:20:11 +08:00

重点是套大模型上去，数据湖不是重点
随便云平台整个 mysql ，搞一套大数据一键部署下
写的时候 replace_all("数仓","数据湖")

ihnfsa

2024-04-23 14:40:48 +08:00

@VermouthcZzz 谢谢，好文章。

b821025551b

2024-04-23 14:43:57 +08:00

去年软考备考的时候还真看过这玩意，个人理解是这样的：
目前的任何采用数据库的结构化存储方式，都不可以叫数据湖，而是叫数据仓库。上面各位所说的对象存储、Dataware 堆砌等等严格意义上都不能算是数据湖。
真要说什么是数据湖，可以理解成就是一个巨大的文件，里面存储着各种乱七八糟毫无章法的东西，结合 AI 来把这些毫无章法的东西进行数据挖掘。在这种场景下，重要的是如何去挖掘，而数据湖仅仅是一块硬盘，最重要的指标是 IO 速度，仅此而已。

whileFalse

2024-04-23 14:56:07 +08:00 via Android

数据湖就像你的磁盘，甭管是什么数据都一股脑丢进去，所以里面有各种不同格式的文件，相同格式的文件也有各种不同的数据结构

然后等你有功夫的时候为这些乱七八糟的格式分别建立结构、索引，然后再清洗、查询、可视化。

以 aws 为例，s3 就是磁盘，通过 glue 来为不同的数据文件创建结构，通过 athena 和 redshift spectrum 查询，通过 quicksight 可视化（这玩意很垃圾），还有 lake formation 这种管理服务。

jiangbao888

2024-04-23 14:59:20 +08:00

可以看下这个，感觉是你的需求。https://github.com/lakesoul-io/LakeSoul

HkMuxxx

2024-04-23 15:16:30 +08:00

数据湖本质也就是数仓吧，只是解决了传统数仓 upsert 的痛点

ihnfsa

2024-04-23 20:59:18 +08:00

@jiangbao888 谢谢了，这是个好东西，我部署一下试试

ihnfsa

2024-04-23 21:06:20 +08:00

@whileFalse 我理解的数据湖差不多就是这样，现在想自己部署一个，不然总有点知其表不知其里。

930RC92EtcpqT2vM

2024-04-23 23:03:17 +08:00

@b821025551b

今天在做一个培训，才第一次听说 Datalake 。概念和你说的差不多，DATAWH 是一些整理过的数据，Datalake 就是一些未处理过，等着挖掘的数据。

dayeye2006199

2024-04-24 03:20:14 +08:00 via Android

@wheat0r 这位教授您快请主席台入座

yjhatfdu2

2024-04-24 17:09:20 +08:00

数据糊技术显然是为了写入和低成本优化的，查询速度会慢的离谱（正常场景下），例如使用 apache hudi ，即使使用了记录级索引，在 1TB20 亿行数据中使用索引取一行也要 12 秒，取 40000 行要 115 秒（来源 https://hudi.apache.org/blog/2023/11/01/record-level-index/），这在 RAG 的场景中简直是离谱

yjhatfdu2

2024-04-24 17:12:00 +08:00

其实现在技术上几种数据糊技术核心的目的是解决传统 hadoop 系统中，parquet 等列存格式，难以支持 ACID 和事务的问题