AI 大模型的分布式存储方案

40 天前
 nakroy

现在的大模型动辄几十 G 几百 G ,如果只是在 GPU 节点本地部署和训练,那么磁盘 I/O 是不需要考虑太多的,但是如果是在集群中部署,一般集群会有专门的计算节点( GPU)和专门的存储节点,计算节点只负责运行 AI 程序,不会有大容量存储本地的模型文件,而交给专门的存储节点存储。

问题来了,如果是以前的 web 微服务,那么瞬时读写数据量不会那么大(对单个程序来说),但是大模型加载需要从磁盘读取,如果要求必须在几秒内或几十秒内读取完毕并加载到计算节点的 GPU 上,那么对存储节点的读写性能和网络性能要求就很高了,

想问一下针对大模型的分布式存储解决方案一般是怎么样的?现在有针对大模型读写 I/O 场景的存储系统优化吗?

1775 次点击
所在节点    程序员
25 条回复
mightybruce
40 天前
https://arthurchiao.art/blog/gpu-advanced-notes-1-zh/
可以看看这个人写的一些科普吧。
nakroy
40 天前
@mightybruce 我现在有 4 台 910B 的机器做测试,不纠结分布式存储那直接用本地为每一个模型分片存储确实成本最低。因为训练场景不多,主要还是推理场景。但是华为的人推的方案就有提到搭配他们的存储产品,所以不知道和传统的分布式存储有啥区别
nakroy
40 天前
@mightybruce 好的兄弟,我去看看
infinet
39 天前
传统分布式储存指什么?至少 Lustre beegfs 之类已经是分布式储存的天花板了,单个超大文件分散到多个储存节点,如果觉得吞吐量不够就加节点。它两个之外还有 IBM 的 gpfs ,据说口碑不错就是用的人比较少。听朋友说某国产储存也是分布式,但它计算节点的储存客户端非常耗资源。
tap91624
39 天前
存储不是啥瓶颈的,内存到显存通信才是大头

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1083488

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX