现在的大模型动辄几十 G 几百 G ,如果只是在 GPU 节点本地部署和训练,那么磁盘 I/O 是不需要考虑太多的,但是如果是在集群中部署,一般集群会有专门的计算节点( GPU)和专门的存储节点,计算节点只负责运行 AI 程序,不会有大容量存储本地的模型文件,而交给专门的存储节点存储。
问题来了,如果是以前的 web 微服务,那么瞬时读写数据量不会那么大(对单个程序来说),但是大模型加载需要从磁盘读取,如果要求必须在几秒内或几十秒内读取完毕并加载到计算节点的 GPU 上,那么对存储节点的读写性能和网络性能要求就很高了,
想问一下针对大模型的分布式存储解决方案一般是怎么样的?现在有针对大模型读写 I/O 场景的存储系统优化吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.