Studio M4max 128G 是否合适跑大模型

4 天前
886106  886106
看上 M4 的芯片了,128G 适合跑大模型么
3211 次点击
所在节点   Apple  Apple
37 条回复
mumbler
mumbler
4 天前
能跑,很酷,但性价比很低

目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用
886106
886106
4 天前
@mumbler 你说这硬要上服务器才能跑 8 张卡了
chiaf
chiaf
4 天前
你指的训练大模型吧,那不能。

本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝
lithiumii
lithiumii
4 天前
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
noobjalen
noobjalen
4 天前
我 32g 能跑 9b 大模型,这算大模型吗。 当然是不建议,能跑但慢。
neteroster
neteroster
4 天前
[同时]满足下面几个要求的情况下有优势:
1. bs=1 (不并发)
2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况)
3. 静音与便携
4. 需要跑较大的模型(很慢但能跑)

---

一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。

综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。
killgfat
killgfat
4 天前
除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
hefish
hefish
4 天前
gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
liulicaixiao
liulicaixiao
4 天前
个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
yiios
yiios
4 天前
@neteroster
你把我想说的都说完了。
一个是没有靠谱的并发方案,另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。
icyalala
icyalala
4 天前
如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。

如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。
ShadowPower
4 天前
这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题
BernieDu
4 天前
@mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
azhangbing
4 天前
充钱用 token 可以到天荒地老
DICK23
4 天前
我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
tap91624
4 天前
@BernieDu 2080ti 两两之间支持 nvlink
ShadowPower
4 天前
@DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
234ygg
4 天前
压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
BernieDu
4 天前
@tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧,而且 nvlink1 的带宽也不过 100 GB/s
Liftman
4 天前
我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1118789

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX