自建数据湖方案

222 天前
 ihnfsa

导师让做数据湖的大模型应用,但是我没有实际的数据湖可以用,有点无米之炊。各位老哥知道什么开源的基于 S3 协议的数据湖搭建方案吗?

4050 次点击
所在节点    云计算
42 条回复
dayeye2006199
222 天前
什么是数据湖的大模型应用?两个名词堆一块儿了?
ihnfsa
222 天前
@dayeye2006199 我也只知道几个关键字,AI Agent + RAG + 数据湖
dog82
222 天前
数据湖炒概念的成分更大,我没找到市面上的成功案例。我对国云数据的魔镜稍微了解一点,楼主去看看 http://www.moojnn.com/product-center/publicinto.html
ihnfsa
222 天前
@dog82 好的,谢谢哥
yjhatfdu2
222 天前
开源数据糊一般是指 apache hudi 、apache iceberg 和 delta lake ,但这玩意儿都还是适合写入为主,偶尔批量计算的场景,不适合实时查询,和 AI Agent 、RAG 有啥关系?
ihnfsa
222 天前
@yjhatfdu2 我也没搞清楚,现在想的是能不能把 Text2SQL 用在湖上一些查询系统上,类似于这种 https://help.aliyun.com/zh/dms/release-the-ai-agent
CadonHo
222 天前
数据湖就是一个存储,特点就是各种数据格式都能存。不过有一说一,大模型的应用不是应该往垂直领域找么,这个跟数据湖关系不大吧,数据湖就是大模型应用中的一个环节而已。
hero1874
222 天前
数据湖和大模型这俩关系挂靠在一起,有点违和
看你上面说的 AI Agent + RAG + 数据湖
是把数据湖作为 RAG 的外部数据来源吗,数据湖里存一些非结构化的数据
数据湖可以看看 Apache Paimon 这个倒支持流式读写,批读写,也支持 S3
opengps
222 天前
先把数据湖改个名,叫对象存储,理解起来瞬间容易不少
zlo309618100
222 天前
啥是数据湖?文盲.jpg
roidinev
222 天前
是啊, 大模型的应用应该往垂直领域找。除非你想研究出论文:比如研究大模型对存储吞吐量/延迟的需求,优化数据湖等。
wheat0r
222 天前
导师:我啥也不懂,你们弄好了挂我一作
ZGame
222 天前
首先你要确定你的大模型需要的数据,再去考虑技术栈会不会合适点...
mightybruce
222 天前
你的题目写得不对,数据湖和对象存储是两个东西
大模型应用和这个也没有关系。
要么导师误入子弟,要么导师没有说清楚,需要再次沟通。
sampeng
222 天前
灰常简单啊。。
搭个 mysql 。咯。这就是数据糊
o562dsRcFqYl375i
222 天前
@CadonHo 正解
yalin
222 天前
AWS 云方案?
o562dsRcFqYl375i
222 天前
@opengps 👍
c3de3f21
222 天前
flink + paimon + trino [ connector + store + search]
c3de3f21
222 天前
@c3de3f21 收了数据有了实时数据流喂给模型?练个大模型?真是不是你说的 数据湖的大模型应用?应付一下吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1034822

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX