除了 A100/H100 这些以外，还有什么英伟达显卡方案可以突破 48G 显存吗？

目前有在训练并使用着一些顶层应用层面的模型，但我在底层基础层面包括硬件方面的知识非常匮乏。

之前一段时间主要是用买了张 3090 进行训练，也稍微用了些 Colab PRO+的 40G 版本 A100 ，体会到了两者之间的明显差异。

加上我这边需求本身对逻辑推理的要求较高，中小模型似乎很难达到理想效果，于是考虑进一步拓展硬件。

目前我对于各种情况的可能不确切的收集整理是：

哪怕通过 LoRA 等优化方式，除非以训练速度数倍以上的降低为代价来协同 CPU 一起运算，否则总还是需要把模型全量加载到显存里面。
目前易于实现的范围里面，8bit 量化已经是最能节省显存的方式；此时大约每 10 亿的参数量需要对应至少 1GB 的显存。
多卡 RTX4090 的最大显存取决于单卡上限是 24GB ；多卡 RTX6000 Ada 的最大显存仍取决于单卡上线是 48GB ；多卡 RTX3090 可以至多双卡互联，最大显存达到 48GB 。如果想要大幅提高显存的话，只有 A100 和 H100 这些个在算力角度性价比非常低的显卡去多卡并用。

以上三条我的理解里面，可能有哪一部分是错误的或者不够全面的吗？希望能找到性价比还算合适的进一步使用大模型的方案。先行感谢。

另，相对于推理，我这边训练的需求占了绝大部分。