Air M3 24G 能不能跑不量化的 7B 本地大模型推理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 760 days ago, the information mentioned may be changed or developed.

无风扇：温度应该不是问题，跑几分钟，然后就可以休息一下，不会太被温度墙限制。

看了一下 ollama 上的 7B fp16 （或者 bf16 ）模型，权重文件大多在 15GB~17GB 范围内，内存应该内放下，还能给别的应用留一点儿空间。（我看到 PyTorch 的 issues 中提到加载模型过程，即使开了 mmap 也会有剧烈的内存波动，峰值内存占用会到模型权重文件的两倍大，这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。）

cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ，大概桌面版 4060 Ti 的三分之一。担心即使能跑，token 输出速度也很低。

所以，有 V 友真的用 Air 跑过本地大模型吗？

Air

推理

14 replies • 2024-03-29 10:08:32 +08:00

noyidoit

Mar 28, 2024

用 16g 的 m1 跑过 4bit 4B 的 llama2 ，大概占用 6g 内存，但也只是能跑而已，输出巨慢

RHG

Mar 28, 2024

18G 的乞丐版 M3pro 实测跑 13B 的 llama2 速度大概每秒 15token 左右，感觉用着没问题，只是这些本地模型还是不够智能

maizero

Mar 28, 2024

M2PRO 32G 不知道能跑 13b 么

SakuraYuki

Mar 28, 2024

能跑是能跑，但你应该也不会太想用

WuSiYu

Mar 28, 2024

并不是 4060ti 的三分之一，而是二十五分之一（纯算力），n 卡跑模型都会上 tensor core ，4060ti 的 tensor core 有 177 TFLOPS ，当时受限于内存带宽实际能跑到一半就不错了

CatCode

Mar 28, 2024

@WuSiYu 得看数据类型吧。比如我曾在 20 系显卡上跑 7B 模型，发现 fp16 非量化比 int8 量化的快至少一倍，因为 20 系并没有原生支持 int8 ，而原生支持了 fp16 。

wensonsmith

Mar 28, 2024

M1 Pro 16G ，跑 Mistral 7b, qwen-14b 都没问题. 一点不慢。M3 应该问题不大

ShadowPower

Mar 28, 2024

@CatCode 这种情况是运算性能有瓶颈，而显存带宽无瓶颈。
量化之后实际上并不会真的用量化的精度来计算，计算时都会还原到 fp16 或者 fp32 。（不同的算子好像要求不同）。

而还原到 fp16/fp32 的过程需要消耗额外的算力。

jasdkasdjkas

Mar 28, 2024 via iPhone

不要幻想 Apple 机子跑模型了老老实实 N 卡

WuSiYu

Mar 28, 2024

@CatCode 我这里说的都是 fp16

oIMOo

Mar 28, 2024

你搜下这个应用 jan.ai
里面有一些预制的模型，你可以看哪些可以跑做个参考

oIMOo

Mar 28, 2024

@oIMOo #11 预置*

mumbler

Mar 28, 2024

fp16 和 q5_k_m 差距几乎忽略不计，7b 只需要 5G 多内存

ozOGen

Mar 29, 2024

NAME ID SIZE MODIFIED
gemma:latest 430ed3535049 5.2 GB 2 weeks ago
llama2-chinese:13b-chat 990f930d55c5 7.4 GB 2 weeks ago
qwen:14b-chat-q6_K 5967f08cc189 12 GB 2 days ago

试过这几个都在 M2 Air 24G 上跑的，无压力