mac mini 24g 大模型推理怎么样

133 天前
 ChipWat

背景: 之前有一个 2018 年的 mac intel 16g 的 mbp ,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/秒),2023 mbp 比较卡顿(目测 3token/秒)。

问题:

准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

4894 次点击
所在节点    Local LLM
27 条回复
unidotnet
133 天前
24G 算了,64G 路过表示 14b ,int4 的话,占 40G 内存左右,自己算算吧。
zmxnv123
133 天前
刚入了台 24g 的 mini ,还没测
neteroster
133 天前
@unidotnet #1
14B 4 位怎么可能 40G ,bf16 不加上下文都没这么大
ChipWat
133 天前
@zmxnv123 #2 求帮忙测测,其它模型也行,给个参考
zmxnv123
133 天前
@ChipWat 怎么测,留你 tg 私聊
ChipWat
133 天前
@unidotnet #1 我帖子里使用 Qwen1.5 parameters:14.2B quantization:Q4_0 文件大小:8.2GB 测的。老哥是不是还有其它应用,macos 系统策略是尽可能多的使用内存吧。
shuimugan
132 天前
大模型跑推理速度首先取决于带宽,带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾,只有 ultra 才值得跑大模型。
速度一览: https://github.com/ggerganov/llama.cpp/discussions/4167
简单粗暴的推理速度公式计算就是:同样的量化,14B 速度不到 7B 的 1/2 ,70B 的速度不到 7B 的 1/10
heyjei
132 天前
在 mac 上面,你们是怎么跑大模型的?用 ollama 吗?
wangshushu
132 天前
AMD 7840hs ,32G 内存,分配 8G 显存,跑 14B 能用的状态,所以 24G 跑 14B 应该问题不大,7B 很轻松了
Attenton
132 天前
@unidotnet 14b 即使是 fp16 也只是大概 28G 左右,int4 怎么可能要 40G
alexmy
132 天前
2018 16G mbp 还在服役中,也想换个,瞧瞧 m4 出来后什么情况。
graetdk
132 天前
18G 的 M3 ,ollama 跑所有的 10B 以下的模型都很爽,而且感觉够用
mumbler
132 天前
gemma2 9B 能打 qwen1.5 110B ,M 芯片下能跑到 20+token 的速度,且中文支持很好

可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包,支持 mac ,自带 ollama+图形界面+知识库
234ygg
132 天前
gemma2 9b 勉强能跑的水平吧?但效果很差,满嘴胡言乱语 也就仅适合做做翻译。。
效果应该比我 4090 好点,4090 跑这玩意功耗 250W 简直爆炸,最烦的是电感在那丝丝叫。
做翻译那还不如直接用 gpt4o ,四舍五入不要钱
yinmin
132 天前
个人在本地部署跑 9b 、14b 实用价值不大,也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计(个人使用),功能远超开源小模型。

目前企业(尤其是涉密单位)在内网部署小模型,做些文字审查、文字格式提炼的专项业务比较实用。
bugcreator
132 天前
32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明
ZiM77FAp328moIuB
132 天前
最近在纠结 买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块)
murmur
132 天前
如果没有研究或者折腾的打算,买付费商业大模型更划算
kzzhr
132 天前
m 几呀? 3t/s 感觉像是没走 GPU ,可以看下监控
lairdnote
132 天前
macbook. 32G. 跑 gemma2b 还可以

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1064149

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX