求一套做大语言模型推理的机器配置

2023-05-30 09:38:10 +08:00
 jingsam

想配一台电脑本地部署开源的大语言模型如 Llama 、ChatGLM 等,制作推理,不做训练,如果可能的话做一下精调,请问大概需要什么样的机器配置?或者有什么便宜的云 GPU 资源?

1257 次点击
所在节点    问与答
6 条回复
anonydmer
2023-05-30 10:07:11 +08:00
A100
poyanhu
2023-05-30 10:10:39 +08:00
弄云 GPU 资源,还不如自己买显卡。
glfpes
2023-05-30 10:15:41 +08:00
阿里云 pai
graetdk
2023-05-30 10:17:05 +08:00
看参数量啊,例如 6b 或者 7b ,24- 32G 显存的都可以,如果用了半精度,那显存还可以更低,云 GPU 可以用 V100 ,A30 ,A100
Volekingsg
2023-05-30 12:29:36 +08:00
参数用 fp32 存的话,Model Memory=Model Parameter * 32 / 8 ,比如说 7B 的 LLaMA 就是 4*7 Billion Byte= 28GB
fp16/bp16 减半,int8 再减半

Inference 时,Total Memory ≈ 1.2 * Model Memory ,因此全量 7B LLaMA 需要 40G 的显卡

全量微调的需要的参数量就更多了,> 5 * Model Memory ( AdamW 优化器,另外没算 Activation Memeory ,与 tokens 量有关)

因此想要微调可以看下低参数量微调的工作,像 lora 等 https://github.com/huggingface/peft ,配合 16 精度参数能在 24G 上微调

更具体数字可以参考 https://blog.eleuther.ai/transformer-math/
jingsam
2023-05-30 13:42:18 +08:00
@Volekingsg 感谢详尽的回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/944082

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX