mac mini 24g 大模型推理怎么样

39 天前
 ChipWat

背景: 之前有一个 2018 年的 mac intel 16g 的 mbp ,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/秒),2023 mbp 比较卡顿(目测 3token/秒)。

问题:

准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

3666 次点击
所在节点    程序员
27 条回复
weixind
39 天前
@jwwwii 秋季发布会会发 m4 的 mac mini 吧。
xing7673
39 天前
@unidotnet llm 推理内存很好算,q4 约等于当前参数/2=内存,比如 14b 应该是 7g 内存左右。
以此类推 q8 14b=14g
f16 14b=28g
还需要加一些推理机制内存,不过大抵可以这么推算。
建议先自己运行检查一遍
wingerwwang
39 天前
m1max 32g 跑 llama3.1 7B 效果不错,6g 内存上下。效果比我试过的其他几个 13B 都要好。
beyondsoft
39 天前
建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s
8355
38 天前
只能跑小模型吧。。大模型好像要内存拉满了
unidotnet
36 天前
@xing7673
@neteroster
@ChipWat
@Attenton

计算模型要多少内存没问题,我是个人使用经验。但 mac 共享内存,总不见得啥别的系统开销都不要吧,纯命令行裸写一堆 json 去交互。。。 跑模型把别的应用都关了就没啥实用价值。再多做点,开始 embed , 比如跑点 neo4j 什么的是吧,界面要有个吧,跑个 docker ,web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理,GPU full ,内存虽然 64G 没用满,但是基本在 40 几 G , 除非 pumas 命令显示不正确。
xing7673
36 天前
@unidotnet #26 你这回复。。。。。没必要

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1064149

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX