neteroster
37 天前
认同这篇文章的主要观点,它谈及了一些关于本地 LLM 推理很多人没注意但很重要的内容。
先不谈高 batch (毕竟日常不常用),大多数人都没意识到 M 芯片 prefill 很慢,而这个在上下文长的情况下是挺致命的。而且其实 decode 速度也会受上下文长度影响,很多测试仅仅是在很短的 prompt 下去测生成,得到一个看起来挺好看的数字,然而实际使用中很多情况下根本不是这种场景。
个人观点是,当前,本地 LLM 推理对于大多数普通用户或开发者没有显著的使用必要,除非是特殊需求(例如强隐私需求等)。个人用户花大价钱购买设备单纯只是去推理本地 LLM 在现在看起来是不太明智的,当然如果是其他需求顺便推模型或者单纯太有钱买来玩玩那倒也没什么。即使非要谈本地推理,Mac 的应用场景也是较窄的,文章中写的已经听明白了。
文章还谈到了投机解码,这个确实很有意义,特别是对于生成内容主要是代码的情况,加速应该是相当明显( cursor 的自动补全就用了),期待未来这方面的发展。
作为补充,看起来文章测 text generation 的时候只是用了 llama.cpp ,他的多卡实现应该还是 pipeline parallel ,有一些后端支持 tensor parallel ,多卡情况下单 batch 性能应该还能进一步提高(但对 PCIe 速度有更高要求),希望有相关测试。