Studio M4max 128G 是否合适跑大模型

11 天前
886106  886106
看上 M4 的芯片了,128G 适合跑大模型么
3386 次点击
所在节点   Apple  Apple
37 条回复
mumbler
mumbler
11 天前
能跑,很酷,但性价比很低

目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用
886106
886106
11 天前
@mumbler 你说这硬要上服务器才能跑 8 张卡了
chiaf
chiaf
11 天前
你指的训练大模型吧,那不能。

本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝
lithiumii
lithiumii
11 天前
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
noobjalen
noobjalen
11 天前
我 32g 能跑 9b 大模型,这算大模型吗。 当然是不建议,能跑但慢。
neteroster
neteroster
11 天前
[同时]满足下面几个要求的情况下有优势:
1. bs=1 (不并发)
2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况)
3. 静音与便携
4. 需要跑较大的模型(很慢但能跑)

---

一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。

综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。
killgfat
killgfat
11 天前
除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
hefish
hefish
11 天前
gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
liulicaixiao
liulicaixiao
11 天前
个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
yiios
yiios
11 天前
@neteroster
你把我想说的都说完了。
一个是没有靠谱的并发方案,另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。
icyalala
icyalala
11 天前
如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。

如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。
ShadowPower
11 天前
这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题
BernieDu
11 天前
@mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
azhangbing
11 天前
充钱用 token 可以到天荒地老
DICK23
11 天前
我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
tap91624
11 天前
@BernieDu 2080ti 两两之间支持 nvlink
ShadowPower
10 天前
@DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
234ygg
10 天前
压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
BernieDu
10 天前
@tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧,而且 nvlink1 的带宽也不过 100 GB/s
Liftman
10 天前
我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1118789

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX