如何估算一个大模型需要用到什么性能配置的硬件？

经常看到例如 R1-7B ，4060 显卡能跑，14B 又多少显卡能跑这样的结论，
有例如最近又看到 QwQ 单 4090 能跑的文章，
然而我去到官网看文档又没有找到对应的说明，
那么一般从哪个参数能大致看出来需要多少 cpu 、内存、显存之类的呢？

gaobh

2 天前

因为没有人真的跑起来，所以也没有人真的知道用多少

ex9527

2 天前

没有标准说不准，跑得起来也分跑不跑得快，效果好不好。要多少量化位数跟参数也要说清楚。

wtks1

2 天前

一般来说都是有人实操过后才知道行不行的

lithiumii

2 天前

理论上最低限度的跑起来：显存 + 内存 + 硬盘 > 模型 + context
但是比较傻瓜的软件（比如 ollama ）一般不能直接把硬盘当缓存用，所以比较傻瓜的一键跑起来：显存 + 内存 > 模型 + context
人的阅读速度大概是 5 token 每秒，所以跑起来并且速度勉强能用：每秒 token 数 > 5
因为速度主要瓶颈是内存或显存的带宽，普通家用双通道 < 服务器 4 通道 < 中低端显卡、苹果统一内存 < 高端显卡，所以模型放到显卡的比例越大，速度越快。另外就是做推理的时候模型不同的层可以放进不同的显卡，不走 nvlink 仍然速度很快，因为不同的层之间通信要求没有那么高，所以多个 PCIe 槽直接插多显卡就可以放下更大的模型并且获得更快的速度。
最后是计算模型体积，一般的完整模型 fp16 每 B 近似 2G ，量化到 q4 的模型近似 0.5G 每 B ，但是这样算太粗糙了可以再加个 20% 当余量。context 计算很麻烦，不同参数的模型需要的不一样，而且可以自己调高调低，ollama 默认给得非常低只有 2k （很多模型支持到 128k ），所以再加个 10% 当余量。
那就是显存 + 内存 > 1.3 × 模型体积。

mumbler

2 天前

mark.flashai.com.cn

villivateur

2 天前

https://tools.thinkinai.xyz/

duanxianze

2 天前

并没有统一的标准，最简单的，每个人对能用的理解不一样，有的人需要一秒就出答案，有的人不介意等 10 秒

est

2 天前

7B == 7,000,000,000 ，得到 7G 。每一个参数 4byte (fp32) 那么就需要 7x4 == 28GB 显存

用了 fp16 优化就只需要 14GB 显存。用 int8 量化就需要 7GB 显存，用 int4 量化就需要 3.5GB 显存

当然 transformer 还有很多其他的各个环节提升，这里 x4 x2 x1 x0.5 可以进一步打折优化。这里只是一个大概的计算

est

2 天前

另外再说一个简单的 token 吐字效率计算。大语言模型你可以看成所有参数都需要顺序激活一次参与计算，假如 7G fp32 的 LLM 每一秒钟输出一个 token ，就至少需要 28 GB/s 的显存带宽。

AirTag

2 天前

我是按照 1B 需要 1G 内存来算的，跑过 ds 23b qwq32b ，因为 ds 已经给删了，刚刚试了下 qwq32b ，计算运行前后内存差值的话，大概占用了 20GB 的联合内存。总联合内存占用大概 30GB ，可能是系统还有其他程序的占用。
这个信息可以参考下，它的真实运行过程我也不是很了解。
我的输出速度很慢大概 6token/s 。