体验了 Qwen2.5 Coder 32B 之后，我觉得本地 LLM 能用了

121 天前

ShadowPower

现在 Huggingface Chat 上可以在线体验：
https://huggingface.co/chat

一年前我尝试了绝大多数热门的，开放权重下载的 LLM 。当时得出的结论是：能本地跑的模型都没有实用价值，写代码的能力都非常糟糕。

最近发布的 Qwen2.5 Coder 32B 效果还真不错，感觉上比早期 GPT4 还强。只要能自己拆解需求，写出大体实现思路，它就可以给出基本上可用的代码。估计有 GPT4o 的水平。

它比我之前认为最好的 DeepSeek v2.5 236B 还好。DeepSeek 的问题在于上下文窗口太小，而且自己还会加超级多的解释和注释，甚至把输入复述一遍，浪费上下文长度。然后输出越长性能越差，甚至会崩溃成循环输出一个单词，所以，实际用起来不好用。

以我用 GPT 的经验，达到初版 GPT4 以上的水平就能提升开发效率。我认为，如今本地 LLM 真的有实用价值了。

14993 次点击

所在节点

Local LLM

98 条回复

HatMatrix

121 天前

但是 32B 的模型，你本地部署也不太容易呀

panxiuqing

121 天前

本地要什么硬件配置

spkingr

121 天前

厉害，本地部署能跑动的配置最低得多少呢？

ShadowPower

121 天前

@HatMatrix 双 3090 或者一块 RTX8000 改散热就可以了，运行 8bit 量化版本，质量损失很小。
我觉得再过一两年可能会有价格低廉的消费级设备来跑。
很多处理器和显卡的架构设计都是两年之前就开始的，当时根本不会有本地 LLM 的需求。
没准将来的普通电脑都会有四通道内存，搭载高性能 NPU 而且针对 LLM 特别优化，同时还有配套的软件设施。

ShadowPower

121 天前

@spkingr 如果追求运行速度，最低的话，都是整机售价一万多到两万的设备……
门槛还是有点高。

zhmouV2

121 天前

Deepseek 确实深有同感 cursor 上用 ds 的 api 问题很严重

kennylam777

121 天前

樓主在本地用量化跑吧? 有試過用 Continue 一類 VSCode 插件來用嗎?

Donaldo

121 天前

请问这个需要多少显存？

MakHoCheung

121 天前

@panxiuqing https://x.com/ozgrozer/status/1856142448721793197 M4 Max 可以跑

kennylam777

121 天前

@ShadowPower 哈哈剛發帖就看到配置了, 雙 3090 跑 8bit 量化感覺 VRAM 很充裕, 多出的 VRAM 就用來撐起 context length,

我記得之前用 Qwen 2.5 32B 8bit 量化, 在雙 3090 設成 20K 也沒問題, 如今 Coder 版應該能盡用更大的 context window

zhmouV2

121 天前

顺便看了下 ollama 上已经有各种量化版本了 https://ollama.com/library/qwen2.5-coder/tags
14b q2_k 应该是我本地 8G 显存能跑的极限了有没有兄弟说说效果

ShadowPower

121 天前

@kennylam777 我还没试过用 Continue ，改天有空的时候试试看

ShadowPower

121 天前

@Donaldo 8bit 的权重有 30.29 GB ，再加上 context 的大小，40GB 应该足够了

yanyuechuixue

121 天前

看了一下，如果用 INT4 的模型，4090 没问题了。精度损失也很少。
但问题是不可能将一块 4090 用在这上面。成本太高了，不考虑保护隐私的情况下，还不如订阅 ChatGPT.

4060Ti 16G 的价格比较低，我买了一块，这个可以用来“全职”部署 LLM, 但目前即便是 INT4 也无法跑在 16G 上。

也许 Windows 的共享显存会有用，但不知道速度会降低到多少。

kennylam777

121 天前

@spkingr 淘寶上的 P40 很便宜, 組兩張應該能跑 32B 8bit 量化, 舊 N 卡的量化選擇應該比 Apple Silicon 多, 也可以跑 fine-tuning 雖然比 3090 慢就是了

ShadowPower

121 天前

@yanyuechuixue 共享显存不行，对 LLM 性能影响极大，因为 PCIe 带宽太小了。而且 4060Ti 还是 PCIe x8 接口……

kennylam777

121 天前

@yanyuechuixue Windows 的 shared VRAM 是能跑 LLM, 但超過了 dedicated VRAM 後性能會大幅下降, 得不償失

kzfile

121 天前

多卡独显只跑这个，性能有些过剩了。
大内存 mac 的话单人用应该还行

liulicaixiao

121 天前

copilot 和 cursor 都能白嫖，我觉得本地大模型真的没有必要，除非你是断网开发

F1Justin

121 天前

笔记本上用 ollama 跑了 Q4_K_M 量化的 2.5-coder （ 20GB ），推理速度感觉勉强可以接受
eval count: 383 token(s)
eval duration: 52.807s
eval rate: 7.25 tokens/s

第 1 页／共 5 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1089179

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.