除了 A100/H100 这些以外,还有什么英伟达显卡方案可以突破 48G 显存吗?

2023-04-06 15:14:32 +08:00
 seoqx

目前有在训练并使用着一些顶层应用层面的模型,但我在底层基础层面包括硬件方面的知识非常匮乏。

之前一段时间主要是用买了张 3090 进行训练,也稍微用了些 Colab PRO+的 40G 版本 A100 ,体会到了两者之间的明显差异。

加上我这边需求本身对逻辑推理的要求较高,中小模型似乎很难达到理想效果,于是考虑进一步拓展硬件。

目前我对于各种情况的可能不确切的收集整理是:

  1. 哪怕通过 LoRA 等优化方式,除非以训练速度数倍以上的降低为代价来协同 CPU 一起运算,否则总还是需要把模型全量加载到显存里面。

  2. 目前易于实现的范围里面,8bit 量化已经是最能节省显存的方式;此时大约每 10 亿的参数量需要对应至少 1GB 的显存。

  3. 多卡 RTX4090 的最大显存取决于单卡上限是 24GB ;多卡 RTX6000 Ada 的最大显存仍取决于单卡上线是 48GB ;多卡 RTX3090 可以至多双卡互联,最大显存达到 48GB 。如果想要大幅提高显存的话,只有 A100 和 H100 这些个在算力角度性价比非常低的显卡去多卡并用。

以上三条我的理解里面,可能有哪一部分是错误的或者不够全面的吗?希望能找到性价比还算合适的进一步使用大模型的方案。先行感谢。

另,相对于推理,我这边训练的需求占了绝大部分。

2003 次点击
所在节点    机器学习
4 条回复
Seanfuck
2023-04-06 15:26:09 +08:00
自己改显存?
CapNemo
2023-04-07 14:50:40 +08:00
A6000
CapNemo
2023-04-07 14:52:17 +08:00
仔细看了一下,你需要的是 deepspeed 这类的能够充分利用多卡并行的方案。
Kavendish
2023-09-03 16:02:27 +08:00
2 张 22G2080ti ,勉强 44G.选老一点主板,能插两张。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/930278

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX