针对 AI 场景的分布式存储

1 天前
 nakroy

大模型一般是在集群场景进行分布式训练和推理,那么对于大模型这种动辄几十几百 G (如果训练,还要考虑数据集可能也是 T 级别),分布式存储有比较好的方案吗(读写性能、网络带宽等)?

比如多个 GPU 节点同时从存储节点读取和加载模型权重,对存储节点的读写性能要求应该非常高,想知道集群场景下有没有针对 AI 的分布式存储系统

431 次点击
所在节点    Kubernetes
2 条回复
wyxustcsa09
1 天前
cybort
22 小时 38 分钟前
其实没必要同时加载,一个读了发给其他人就行,走网线

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1083555

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX