Apple 统一内存适合运行 LLM？理想很丰满，现实很骨感

neteroster

37 天前

认同这篇文章的主要观点，它谈及了一些关于本地 LLM 推理很多人没注意但很重要的内容。

先不谈高 batch （毕竟日常不常用），大多数人都没意识到 M 芯片 prefill 很慢，而这个在上下文长的情况下是挺致命的。而且其实 decode 速度也会受上下文长度影响，很多测试仅仅是在很短的 prompt 下去测生成，得到一个看起来挺好看的数字，然而实际使用中很多情况下根本不是这种场景。

个人观点是，当前，本地 LLM 推理对于大多数普通用户或开发者没有显著的使用必要，除非是特殊需求（例如强隐私需求等）。个人用户花大价钱购买设备单纯只是去推理本地 LLM 在现在看起来是不太明智的，当然如果是其他需求顺便推模型或者单纯太有钱买来玩玩那倒也没什么。即使非要谈本地推理，Mac 的应用场景也是较窄的，文章中写的已经听明白了。

文章还谈到了投机解码，这个确实很有意义，特别是对于生成内容主要是代码的情况，加速应该是相当明显（ cursor 的自动补全就用了），期待未来这方面的发展。

作为补充，看起来文章测 text generation 的时候只是用了 llama.cpp ，他的多卡实现应该还是 pipeline parallel ，有一些后端支持 tensor parallel ，多卡情况下单 batch 性能应该还能进一步提高（但对 PCIe 速度有更高要求），希望有相关测试。

neteroster

37 天前

@neteroster #3 没注意都是用单卡测的，那就不涉及多卡推理的方式了。不过非要本地推理现在性价比高的方案应该还是游戏卡多来几张

SkywalkerJi

37 天前

p40 1000 块就能买 24G 显存了。
这价格买 Apple 黄金内存还不到 8g ，性价比在哪。
预算超过 1w5 的话，大部分人也都会 3090 或者 4090 吧。
@piero66

Donaldo

37 天前

@SkywalkerJi #5 4090 显存也就 24g ，顶多跑个 30b 的。192g 的 mac studio 也就双 4090 的主机的钱。

Donaldo

37 天前

@SkywalkerJi #5 当然，mac 更多的能在享受大内存的是顺便深入的玩玩 llm 比如微调模型什么的，真要考虑训练什么的，还是用专业的把。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1089484

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.