目前有在训练并使用着一些顶层应用层面的模型,但我在底层基础层面包括硬件方面的知识非常匮乏。
之前一段时间主要是用买了张 3090 进行训练,也稍微用了些 Colab PRO+的 40G 版本 A100 ,体会到了两者之间的明显差异。
加上我这边需求本身对逻辑推理的要求较高,中小模型似乎很难达到理想效果,于是考虑进一步拓展硬件。
目前我对于各种情况的可能不确切的收集整理是:
哪怕通过 LoRA 等优化方式,除非以训练速度数倍以上的降低为代价来协同 CPU 一起运算,否则总还是需要把模型全量加载到显存里面。
目前易于实现的范围里面,8bit 量化已经是最能节省显存的方式;此时大约每 10 亿的参数量需要对应至少 1GB 的显存。
多卡 RTX4090 的最大显存取决于单卡上限是 24GB ;多卡 RTX6000 Ada 的最大显存仍取决于单卡上线是 48GB ;多卡 RTX3090 可以至多双卡互联,最大显存达到 48GB 。如果想要大幅提高显存的话,只有 A100 和 H100 这些个在算力角度性价比非常低的显卡去多卡并用。
以上三条我的理解里面,可能有哪一部分是错误的或者不够全面的吗?希望能找到性价比还算合适的进一步使用大模型的方案。先行感谢。
另,相对于推理,我这边训练的需求占了绝大部分。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.