买丐版 Mac Mini M4 用来搭本地大模型的,是不是伪需求

35 天前
 yavdein
今天自己用 ollama 搭大模型时候发现
llama 3.2 vision 11b 其实要求颇高
参照 R 站测评结果

一张图等于要 1 分多钟才能反馈
丐版 m4 其实能顺利跑起来的也就是 llama3.2 3b
回到了两年前文字大模型的时代
真要搞还真至少得内存拉满
2875 次点击
所在节点    Local LLM
16 条回复
icestraw
35 天前
我跑了,内存够,可以跑,速度一样,半分多钟才出结果,GPU 和内存性能低了。Pro 和 Max 会好一些

不过真要用肯定直接接别家 API 了,搞开发的话,哪怕是 max ,好像修改模型的性能根本不够,一时间还真想不到应用场景...只能说可以学习的时候用下。有谁想得到其他的应用场景吗?
winglight2016
35 天前
@icestraw 只能用于开发验证流程,日常使用还是 chatgpt 。我试过 11b 和 90b ,只有后者还能勉强跟 chatgpt 比,前者实际效果很差,几乎没有实用价值。
Hookery
35 天前
因为内存和显存是共用的,所有 16G 内存可用部分肯定是小于一张显卡 16G 显存的可用部分。单纯推理的话,性价比不如 4060TI 16G
yavdein
35 天前

顺便问问 所以咱国产这 qwq 有实用价值么
mkdirmushroom
35 天前
同样的 qwen2.5 14B q4 量化模型,推理速度 m4 16g 不如 m1 pro 32g 。大模型对内存带宽的要求挺高的,m4 的内存带宽只有 120GB/s 。

至于应用场景,我之前也很推崇本地大模型,毕竟数据隐私能够得到保证。但是目前开源模型( 32B 以下)的质量明显不如商用模型,真的硬要找个应用场景的话,放在家里当个智能语音助手蛮好。
zfyStars
35 天前
没必要吧
mkdirmushroom
35 天前
@yavdein https://qwenlm.github.io/blog/qwq-32b-preview/
看数据很厉害,实际效果就不知道了,我已经不想测试了哈哈,前面好几个开源模型脚踢 o1 ,拳打 Claude3.5 的,实际测试效果真的很一般。
Donaldo
35 天前
如果是需要用 Mac 顺便体验一下本地模型,那没问题。专门买来就不值得了,那推理速度能忍?我这 M4 Pro 的推理 14B 的模型和 1080ti 速度没什么区别。。。
noobjalen
35 天前
官网下单体验十四天
ShadowPower
35 天前
不行,丐版 Mac Mini M4 的内存还没我的显存大
不如给台式机加一块 16GB 显存的 4060Ti
ShadowPower
35 天前
@mkdirmushroom 我今天测过这个模型,没有达到我的预期……
wsbqdyhm
35 天前
我用 m1 max 64g 勉强可以跑一跑
rick13
35 天前
<amp-youtube data-videoid="GBR6pHZ68Ho" layout="responsive" width="480" height="270"></amp-youtube>
可以看一下这个视频,看起来真挺能打的
okakuyang
35 天前
别人是用集群,苹果有一个可以集群的框架,要用哪个方式跑
yavdein
34 天前
@rick13 集群累加制倒是可以的。毕竟苹果内存堪比黄金。这已经有点像马斯克火箭做法了。不行就往上叠发动机。
yavdein
34 天前

研究了一圈 还是需要这个 case closed
现在就缺 5W 资金了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1093381

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX