mac mini 24g 大模型推理怎么样

133 天前

ChipWat

背景：之前有一个 2018 年的 mac intel 16g 的 mbp ，但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

有时候偶尔本地跑下大模型推理，使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型，发现 2018 mbp 的更加流畅（目测 10token/秒），2023 mbp 比较卡顿（目测 3token/秒）。

问题：

准备入手一个 Mac mini 24g , 想问下有没有大佬测试过，Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

4894 次点击

所在节点

Local LLM

27 条回复

unidotnet

133 天前

24G 算了，64G 路过表示 14b ，int4 的话，占 40G 内存左右，自己算算吧。

zmxnv123

133 天前

刚入了台 24g 的 mini ，还没测

neteroster

133 天前

@unidotnet #1
14B 4 位怎么可能 40G ，bf16 不加上下文都没这么大

ChipWat

133 天前

@zmxnv123 #2 求帮忙测测，其它模型也行，给个参考

zmxnv123

133 天前

@ChipWat 怎么测，留你 tg 私聊

ChipWat

133 天前

@unidotnet #1 我帖子里使用 Qwen1.5 parameters：14.2B quantization：Q4_0 文件大小：8.2GB 测的。老哥是不是还有其它应用，macos 系统策略是尽可能多的使用内存吧。

shuimugan

132 天前

大模型跑推理速度首先取决于带宽，带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾，只有 ultra 才值得跑大模型。
速度一览： https://github.com/ggerganov/llama.cpp/discussions/4167
简单粗暴的推理速度公式计算就是：同样的量化，14B 速度不到 7B 的 1/2 ，70B 的速度不到 7B 的 1/10

heyjei

132 天前

在 mac 上面，你们是怎么跑大模型的？用 ollama 吗？

wangshushu

132 天前

AMD 7840hs ，32G 内存，分配 8G 显存，跑 14B 能用的状态，所以 24G 跑 14B 应该问题不大，7B 很轻松了

Attenton

132 天前

@unidotnet 14b 即使是 fp16 也只是大概 28G 左右，int4 怎么可能要 40G

alexmy

132 天前

2018 16G mbp 还在服役中，也想换个，瞧瞧 m4 出来后什么情况。

graetdk

132 天前

18G 的 M3 ，ollama 跑所有的 10B 以下的模型都很爽，而且感觉够用

mumbler

132 天前

gemma2 9B 能打 qwen1.5 110B ，M 芯片下能跑到 20+token 的速度，且中文支持很好

可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包，支持 mac ，自带 ollama+图形界面+知识库

234ygg

132 天前

gemma2 9b 勉强能跑的水平吧？但效果很差，满嘴胡言乱语也就仅适合做做翻译。。
效果应该比我 4090 好点，4090 跑这玩意功耗 250W 简直爆炸，最烦的是电感在那丝丝叫。
做翻译那还不如直接用 gpt4o ，四舍五入不要钱

yinmin

132 天前

个人在本地部署跑 9b 、14b 实用价值不大，也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计（个人使用），功能远超开源小模型。

目前企业（尤其是涉密单位）在内网部署小模型，做些文字审查、文字格式提炼的专项业务比较实用。

bugcreator

132 天前

32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明

ZiM77FAp328moIuB

132 天前

最近在纠结买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块）

murmur

132 天前

如果没有研究或者折腾的打算，买付费商业大模型更划算

kzzhr

132 天前

m 几呀？ 3t/s 感觉像是没走 GPU ，可以看下监控

lairdnote

132 天前

macbook. 32G. 跑 gemma2b 还可以

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1064149

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.