mac mini 24g 大模型推理怎么样

189 天前

ChipWat

背景：之前有一个 2018 年的 mac intel 16g 的 mbp ，但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

有时候偶尔本地跑下大模型推理，使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型，发现 2018 mbp 的更加流畅（目测 10token/秒），2023 mbp 比较卡顿（目测 3token/秒）。

问题：

准备入手一个 Mac mini 24g , 想问下有没有大佬测试过，Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

5760 次点击

所在节点

Local LLM

27 条回复

weixind

188 天前

@jwwwii 秋季发布会会发 m4 的 mac mini 吧。

xing7673

188 天前

@unidotnet llm 推理内存很好算，q4 约等于当前参数/2=内存，比如 14b 应该是 7g 内存左右。
以此类推 q8 14b=14g
f16 14b=28g
还需要加一些推理机制内存，不过大抵可以这么推算。
建议先自己运行检查一遍

wingerwwang

188 天前

m1max 32g 跑 llama3.1 7B 效果不错，6g 内存上下。效果比我试过的其他几个 13B 都要好。

beyondsoft

188 天前

建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s

8355

188 天前

只能跑小模型吧。。大模型好像要内存拉满了

unidotnet

186 天前

@xing7673
@neteroster
@ChipWat
@Attenton

计算模型要多少内存没问题，我是个人使用经验。但 mac 共享内存，总不见得啥别的系统开销都不要吧，纯命令行裸写一堆 json 去交互。。。跑模型把别的应用都关了就没啥实用价值。再多做点，开始 embed ，比如跑点 neo4j 什么的是吧，界面要有个吧，跑个 docker ，web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理，GPU full ，内存虽然 64G 没用满，但是基本在 40 几 G ，除非 pumas 命令显示不正确。

xing7673

186 天前

@unidotnet #26 你这回复。。。。。没必要

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1064149

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.