Studio M4max 128G 是否合适跑大模型

clf

5 天前

挺适合。

2080Ti 方案的话，残值低，买到手=亏 70%，还没算额外的电源成本和 8 卡主板等周边配套的成本。

起码在能耗、性能和省事上来说，M4 Max 很不错。（至少后续没兴趣在本地跑大模型了，也能卖二手，保值率还是挺高的）

wclebb

5 天前

Mac Studio M2 Max 64G 跑过 70B DS ，能跑。只是找不到实用性价值（都是用 API 和 ChatGPT 聊天）。

DS 问多了也会把我搞抑郁，不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI （估计 Mac 也能）。

后面估计可以玩更好玩的玩法，只是现在还没有。

rogerer

5 天前

为了考虑要不要在本地跑 LLM 买设备，不如考虑一下这个钱拿去买 token 会不会更好。开源的模型，deepseek qwen llama ，它们的 api 也都不算贵。

newbeelity

5 天前

请教一下 8 张 2080 怎么硬件交火，用什么交火硬件
@mumbler

ShadowPower

5 天前

@BernieDu 推理对 PCIe 带宽要求很低，训练的要求倒是很高

newbeelity

5 天前

多张民用显卡叠加跑模型一直是个问题，目前仅有软件方案 exo 等（仍在 beta ），虽然官方出了 nvlink 硬件，但支持的显卡，及数量都是优先的。所以用民用显卡显存堆起来跑大尺寸模型本身就不可行。我给楼主的建议是，mac studio 可行，速度还能接受，每秒 20 个 token 左右
-- 来自 m3 ultra 512G 统一内存用户

BernieDu

5 天前

@ShadowPower 如果推理不要求带宽那都用内存推理了。。

ShadowPower

5 天前

@BernieDu
PCIe 接口在推理的过程中，传输的数据只有用户输入的文本和模型返回的文本（一次一 Token ）
多卡的话，再加上一些层与层之间传输的信息以及一些上下文更新信息，也非常少

吃的带宽都是 GPU-显存之间的带宽，这部分不走 PCIe 。为什么吃：因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是，这是 GPU 访问自己负责的那部分参数，多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。

如果用 NVIDIA 以前的 SLI 技术，那倒是会有上面说的情况。但跑模型并不采用这种技术方案，AI 工程师不会那么蠢……

ShadowPower

5 天前

@BernieDu 我现在用来跑 LLM 的显卡，实际 PCIe 带宽是 7.88GB/s （用的平台太老），显卡的显存带宽是 288GB/s ，跑 5bpw 量化 14B 模型实际有 28 token/s

BernieDu

5 天前

@ShadowPower 14B 5bit 的小模型大概需要 9g 显存，你这用不着交火吧。我自己没试过 pcie 显卡交火跑模型，但是 ds 查的模型并行(场景是模型过大，需拆分到多个 GPU) 前向传播时需频繁传递中间张量（如层间输出）。PCIe 带宽 7.88GB/s 会限制大张量传输。成为推理瓶颈。让我用 nvlink 。（应该不会封号吧）

ShadowPower

5 天前

@BernieDu
你用 DeepSeek 的话，那就好办了。
你应该这么问 DeepSeek：

---------------

这是 LLAMA 模型的尺寸信息：
'llama3_70b': dict(
base_model='llama3_8b',
vocab_size=128256,
hidden_size=8192,
intermediate_size=28672,
num_hidden_layers=80,
num_attention_heads=64,
num_key_value_heads=8,
max_position_embeddings=8192,
rms_norm_eps=1e-5,
rope_theta=5e5,
),

双显卡跑 LLAMA 70B 模型，batch_size=1 ，模型拆分到两块显卡上，采用流水线并行。激活值精度为 float16 ，计算生成单个 token 时，两块显卡之间前向传播数据大小。

-----------------

它给你算出一个大小，然后，PCIe 4.0 x16 的带宽大约有 32GB/s ，用带宽除以每 token 传输的数据量，就可以算出这个瓶颈会限制 Token/s 到多大了。

swmjjy

4 天前

@BernieDu 要求带宽的是 GPU 和自身显存之间的通信, 而 GPU 之间几乎只是每层(甚至可以是每 N 层)进行一次简单的中间状态交互, 带宽要求可以非常低

举例, 8 张 3060, Qwen2.5-72B 4bit 量化
promp prefill: 470token/s
decode bs=1: 37token/s
decode 高并发: 430token/s

(这几个数据对于 m4 max 而言是 ~50token/s, ~12token/s, ~30token/s)

swmjjy

4 天前

@newbeelity 这并不是什么问题, 主流推理框架全都正式支持至少一种并行方式, 而且都不必选依赖 nvlink 或者对应 GPU 的同等通信方式, exo 仅仅属于在 mac 社区里比较知名的简单山寨实现而已

newbeelity

4 天前

@swmjjy 感谢，马上去试试：）

BernieDu

4 天前

@swmjjy 感谢数据，被 ds 的回答误导了。。

gigishy

4 天前

@noobjalen 你保守了……我 m1 的 16g 内存 iMac ，流畅 14b 。32b 明显卡顿，测试了一下，缺内存的原因，不是 m1 的原因。

gigishy

4 天前

@liulicaixiao 有一个压倒所有你说的因素的原因：隐私和安全。因为这个缘故，才花五位数买来本地跑模型……

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1118789

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.