自建数据湖方案

219 天前
 ihnfsa

导师让做数据湖的大模型应用,但是我没有实际的数据湖可以用,有点无米之炊。各位老哥知道什么开源的基于 S3 协议的数据湖搭建方案吗?

4045 次点击
所在节点    云计算
42 条回复
deorth
219 天前
op:虽然完全不知道导师出的什么吊题目,但是我先问问网友
nullboy
219 天前
"数据湖" 这名字听起来怎么感觉怪怪的
HughRyu
219 天前
我个人理解 Datalake 就是各个 Dataware 的集合,不能为了强行推 Datalake 概念而堆砌 Dataware 。
ihnfsa
219 天前
@deorth 哈哈哈是这样的,导师也不懂
ihnfsa
219 天前
@opengps 我的理解是数据湖要有个持久化的存储系统,可以是对象存储,也可以是 hdfs 这种
ihnfsa
219 天前
@hero1874 谢谢哥,我去看看
ihnfsa
219 天前
@ZGame 只是用现成的大模型,我也不会微调什么的
ihnfsa
219 天前
这个题目是甲方给的,导师也不懂,没安排和甲方沟通,让我在这想方案。s3/hdfs 是我自己琢磨的,我看数据湖一般会有一个存储系统,可以用来放非结构化数据和查询系统的数据。rag 和向量数据库、图数据库有关系,但感觉这些查询系统放在湖里面有点强行了。
VermouthcZzz
219 天前
@ihnfsa 目前跟 AI/数据 相关的似乎向量数据库符合你的要求
我最近在看向量搜索相关的内容 分享给你 希望你能获取一些灵感
https://pub.towardsai.net/advanced-rag-techniques-an-illustrated-overview-04d193d8fec6
mhycy
219 天前
数据湖的大模型应用?是现有数据的 AI 标注再利用么?
这东西和数据湖没啥关系啊,反正是个信息量足够大的东西都能称之为湖
改个高大上名字罢了
cbythe434
219 天前
重点是套大模型上去,数据湖不是重点
随便云平台整个 mysql ,搞一套大数据一键部署下
写的时候 replace_all("数仓","数据湖")
ihnfsa
219 天前
@VermouthcZzz 谢谢,好文章。
b821025551b
219 天前
去年软考备考的时候还真看过这玩意,个人理解是这样的:
目前的任何采用数据库的结构化存储方式,都不可以叫数据湖,而是叫数据仓库。上面各位所说的对象存储、Dataware 堆砌等等严格意义上都不能算是数据湖。
真要说什么是数据湖,可以理解成就是一个巨大的文件,里面存储着各种乱七八糟毫无章法的东西,结合 AI 来把这些毫无章法的东西进行数据挖掘。在这种场景下,重要的是如何去挖掘,而数据湖仅仅是一块硬盘,最重要的指标是 IO 速度,仅此而已。
whileFalse
219 天前
数据湖就像你的磁盘,甭管是什么数据都一股脑丢进去,所以里面有各种不同格式的文件,相同格式的文件也有各种不同的数据结构

然后等你有功夫的时候为这些乱七八糟的格式分别建立结构、索引,然后再清洗、查询、可视化。

以 aws 为例,s3 就是磁盘,通过 glue 来为不同的数据文件创建结构,通过 athena 和 redshift spectrum 查询,通过 quicksight 可视化(这玩意很垃圾),还有 lake formation 这种管理服务。
jiangbao888
219 天前
可以看下这个,感觉是你的需求。https://github.com/lakesoul-io/LakeSoul
HkMuxxx
219 天前
数据湖本质也就是数仓吧,只是解决了传统数仓 upsert 的痛点
ihnfsa
218 天前
@jiangbao888 谢谢了,这是个好东西,我部署一下试试
ihnfsa
218 天前
@whileFalse 我理解的数据湖差不多就是这样,现在想自己部署一个,不然总有点知其表不知其里。
allpass2023
218 天前
@b821025551b

今天在做一个培训,才第一次听说 Datalake 。 概念和你说的差不多,DATAWH 是一些整理过的数据,Datalake 就是一些未处理过,等着挖掘的数据。
dayeye2006199
218 天前
@wheat0r 这位教授您快请主席台入座

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1034822

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX