V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
seoqx
V2EX  ›  机器学习

除了 A100/H100 这些以外,还有什么英伟达显卡方案可以突破 48G 显存吗?

  •  
  •   seoqx · 2023-04-06 15:14:32 +08:00 · 2002 次点击
    这是一个创建于 582 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前有在训练并使用着一些顶层应用层面的模型,但我在底层基础层面包括硬件方面的知识非常匮乏。

    之前一段时间主要是用买了张 3090 进行训练,也稍微用了些 Colab PRO+的 40G 版本 A100 ,体会到了两者之间的明显差异。

    加上我这边需求本身对逻辑推理的要求较高,中小模型似乎很难达到理想效果,于是考虑进一步拓展硬件。

    目前我对于各种情况的可能不确切的收集整理是:

    1. 哪怕通过 LoRA 等优化方式,除非以训练速度数倍以上的降低为代价来协同 CPU 一起运算,否则总还是需要把模型全量加载到显存里面。

    2. 目前易于实现的范围里面,8bit 量化已经是最能节省显存的方式;此时大约每 10 亿的参数量需要对应至少 1GB 的显存。

    3. 多卡 RTX4090 的最大显存取决于单卡上限是 24GB ;多卡 RTX6000 Ada 的最大显存仍取决于单卡上线是 48GB ;多卡 RTX3090 可以至多双卡互联,最大显存达到 48GB 。如果想要大幅提高显存的话,只有 A100 和 H100 这些个在算力角度性价比非常低的显卡去多卡并用。

    以上三条我的理解里面,可能有哪一部分是错误的或者不够全面的吗?希望能找到性价比还算合适的进一步使用大模型的方案。先行感谢。

    另,相对于推理,我这边训练的需求占了绝大部分。

    4 条回复    2023-09-03 16:02:27 +08:00
    Seanfuck
        1
    Seanfuck  
       2023-04-06 15:26:09 +08:00
    自己改显存?
    CapNemo
        2
    CapNemo  
       2023-04-07 14:50:40 +08:00
    A6000
    CapNemo
        3
    CapNemo  
       2023-04-07 14:52:17 +08:00
    仔细看了一下,你需要的是 deepspeed 这类的能够充分利用多卡并行的方案。
    Kavendish
        4
    Kavendish  
       2023-09-03 16:02:27 +08:00
    2 张 22G2080ti ,勉强 44G.选老一点主板,能插两张。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   970 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:58 · PVG 03:58 · LAX 11:58 · JFK 14:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.