Studio M4max 128G 是否合适跑大模型

mumbler

11 天前

能跑，很酷，但性价比很低

目前跑大模型最划算的是 2080ti 魔改 22G ，用 128G M4 的价格可以买 8 块 2080 交火 176G ，多并发流畅跑 32B fp16 和 70B fp16 ，剩下的钱还能再买个 16G m4 用

886106

11 天前

@mumbler 你说这硬要上服务器才能跑 8 张卡了

chiaf

11 天前

你指的训练大模型吧，那不能。

本地跑的那种跑，绝对没问题，除了那种超大的模型，比如什么迪普稀客满血版🌝

lithiumii

11 天前

能，但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ，往下 70B 之类的魔改显卡也能了，还更快。

noobjalen

11 天前

我 32g 能跑 9b 大模型，这算大模型吗。当然是不建议，能跑但慢。

neteroster

11 天前

［同时］满足下面几个要求的情况下有优势：
1. bs=1 （不并发）
2. 轻 prefill 负载（仅类似 chatbot 任务，没有 rag 这样的工况）
3. 静音与便携
4. 需要跑较大的模型（很慢但能跑）

---

一旦你要并发或者重 prefill 任务就会原地爆炸，被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程，也只有跑 MoE 的时候有比较显著的性价比优势，可惜这 128G 左右也没啥合适的 MoE 。

综合意见就是，大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头，Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。

killgfat

11 天前

除非你对输出速度没什么要求，但对能耗很有要求，而且预算很充足，不然不建议这么干，这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了

hefish

11 天前

gpu 太弱，本机跑跑问题不大。针对 apple metal 的工具链也不够完善。至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了，exo 也支持了，但是开源的模型不能直接用，ollama 需要导入，有时候会因为 gpu 架构问题导入失败，exo 都不知道怎么导入自己下载的模型。。。

liulicaixiao

11 天前

个人觉得不要为了跑大模型而买设备，而应该是有刚需买这个设备，而这个设备恰好能跑大模型。因为大模型的需求是无止尽的，你买一个超级豪华配置的钱，足够你使用 api 很久，而且还能免去你配置中出现的各种问题

yiios

11 天前

@neteroster
你把我想说的都说完了。
一个是没有靠谱的并发方案，另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。

icyalala

11 天前

如果你买 Mac 做生产力工具，大模型刚好是其中的一个需求，那非常合适。

如果你买这个目的就只跑大模型，那就没意义了，楼上大部分对比都是基于这个假设。。。

ShadowPower

11 天前

这个容量能跑的实用模型，消费级 N 卡都能单卡或者双卡跑（ 32B / 70B ）
实用程度更高的模型，128GB 内存不够跑，想方设法跑起来也会有很严重的性能/质量问题

BernieDu

11 天前

@mumbler 8 块 2080ti 魔改 22g 交火带宽是多少，没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ？每秒输出多少 token ？

azhangbing

11 天前

充钱用 token 可以到天荒地老

DICK23

11 天前

我之前也是这么个想法，但是后面想想如果只是运行不训练，那直接用云服务 API 不是更便宜吗？数据敏感的场景除外

tap91624

11 天前

@BernieDu 2080ti 两两之间支持 nvlink

ShadowPower

10 天前

@DICK23 数据敏感的场景拿出来租几天 VPS 跑，没有哪家厂商会花成本去监听和解析内存数据

234ygg

10 天前

压根跑不动比较大的模型，吐第一个字要等半个世纪，上下文越长，吐第一个字速度越慢

BernieDu

10 天前

@tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧，而且 nvlink1 的带宽也不过 100 GB/s

Liftman

10 天前

我就是，明确的跟你讲，除非 mlx 优化的，一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1118789

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.