无风扇:温度应该不是问题,跑几分钟,然后就可以休息一下,不会太被温度墙限制。
看了一下 ollama 上的 7B fp16 (或者 bf16 )模型,权重文件大多在 15GB~17GB 范围内,内存应该内放下,还能给别的应用留一点儿空间。 (我看到 PyTorch 的 issues 中提到加载模型过程,即使开了 mmap 也会有剧烈的内存波动,峰值内存占用会到模型权重文件的两倍大,这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。)
cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ,大概桌面版 4060 Ti 的三分之一。担心即使能跑,token 输出速度也很低。
所以,有 V 友真的用 Air 跑过本地大模型吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.