目前有在训练并使用着一些顶层应用层面的模型,但我在底层基础层面包括硬件方面的知识非常匮乏。
之前一段时间主要是用买了张 3090 进行训练,也稍微用了些 Colab PRO+的 40G 版本 A100 ,体会到了两者之间的明显差异。
加上我这边需求本身对逻辑推理的要求较高,中小模型似乎很难达到理想效果,于是考虑进一步拓展硬件。
目前我对于各种情况的可能不确切的收集整理是:
哪怕通过 LoRA 等优化方式,除非以训练速度数倍以上的降低为代价来协同 CPU 一起运算,否则总还是需要把模型全量加载到显存里面。
目前易于实现的范围里面,8bit 量化已经是最能节省显存的方式;此时大约每 10 亿的参数量需要对应至少 1GB 的显存。
多卡 RTX4090 的最大显存取决于单卡上限是 24GB ;多卡 RTX6000 Ada 的最大显存仍取决于单卡上线是 48GB ;多卡 RTX3090 可以至多双卡互联,最大显存达到 48GB 。如果想要大幅提高显存的话,只有 A100 和 H100 这些个在算力角度性价比非常低的显卡去多卡并用。
以上三条我的理解里面,可能有哪一部分是错误的或者不够全面的吗?希望能找到性价比还算合适的进一步使用大模型的方案。先行感谢。
另,相对于推理,我这边训练的需求占了绝大部分。
1
Seanfuck 2023-04-06 15:26:09 +08:00
自己改显存?
|
2
CapNemo 2023-04-07 14:50:40 +08:00
A6000
|
3
CapNemo 2023-04-07 14:52:17 +08:00
仔细看了一下,你需要的是 deepspeed 这类的能够充分利用多卡并行的方案。
|
4
Kavendish 2023-09-03 16:02:27 +08:00
2 张 22G2080ti ,勉强 44G.选老一点主板,能插两张。
|