体验了 Qwen2.5 Coder 32B 之后,我觉得本地 LLM 能用了

8 天前
 ShadowPower
现在 Huggingface Chat 上可以在线体验:
https://huggingface.co/chat

一年前我尝试了绝大多数热门的,开放权重下载的 LLM 。当时得出的结论是:能本地跑的模型都没有实用价值,写代码的能力都非常糟糕。

最近发布的 Qwen2.5 Coder 32B 效果还真不错,感觉上比早期 GPT4 还强。只要能自己拆解需求,写出大体实现思路,它就可以给出基本上可用的代码。估计有 GPT4o 的水平。

它比我之前认为最好的 DeepSeek v2.5 236B 还好。DeepSeek 的问题在于上下文窗口太小,而且自己还会加超级多的解释和注释,甚至把输入复述一遍,浪费上下文长度。然后输出越长性能越差,甚至会崩溃成循环输出一个单词,所以,实际用起来不好用。

以我用 GPT 的经验,达到初版 GPT4 以上的水平就能提升开发效率。我认为,如今本地 LLM 真的有实用价值了。
8362 次点击
所在节点    程序员
98 条回复
HatMatrix
8 天前
但是 32B 的模型,你本地部署也不太容易呀
panxiuqing
8 天前
本地要什么硬件配置
spkingr
8 天前
厉害,本地部署能跑动的配置最低得多少呢?
ShadowPower
8 天前
@HatMatrix 双 3090 或者一块 RTX8000 改散热就可以了,运行 8bit 量化版本,质量损失很小。
我觉得再过一两年可能会有价格低廉的消费级设备来跑。
很多处理器和显卡的架构设计都是两年之前就开始的,当时根本不会有本地 LLM 的需求。
没准将来的普通电脑都会有四通道内存,搭载高性能 NPU 而且针对 LLM 特别优化,同时还有配套的软件设施。
ShadowPower
8 天前
@spkingr 如果追求运行速度,最低的话,都是整机售价一万多到两万的设备……
门槛还是有点高。
zhmouV2
8 天前
Deepseek 确实深有同感 cursor 上用 ds 的 api 问题很严重
kennylam777
8 天前
樓主在本地用量化跑吧? 有試過用 Continue 一類 VSCode 插件來用嗎?
Donaldo
8 天前
请问这个需要多少显存?
MakHoCheung
8 天前
kennylam777
8 天前
@ShadowPower 哈哈剛發帖就看到配置了, 雙 3090 跑 8bit 量化感覺 VRAM 很充裕, 多出的 VRAM 就用來撐起 context length,

我記得之前用 Qwen 2.5 32B 8bit 量化, 在雙 3090 設成 20K 也沒問題, 如今 Coder 版應該能盡用更大的 context window
zhmouV2
8 天前
顺便看了下 ollama 上已经有各种量化版本了 https://ollama.com/library/qwen2.5-coder/tags
14b q2_k 应该是我本地 8G 显存能跑的极限了 有没有兄弟说说效果
ShadowPower
8 天前
@kennylam777 我还没试过用 Continue ,改天有空的时候试试看
ShadowPower
8 天前
@Donaldo 8bit 的权重有 30.29 GB ,再加上 context 的大小,40GB 应该足够了
yanyuechuixue
8 天前
看了一下,如果用 INT4 的模型,4090 没问题了。精度损失也很少。
但问题是不可能将一块 4090 用在这上面。成本太高了,不考虑保护隐私的情况下,还不如订阅 ChatGPT.

4060Ti 16G 的价格比较低,我买了一块,这个可以用来“全职”部署 LLM, 但目前即便是 INT4 也无法跑在 16G 上。

也许 Windows 的共享显存会有用,但不知道速度会降低到多少。
kennylam777
8 天前
@spkingr 淘寶上的 P40 很便宜, 組兩張應該能跑 32B 8bit 量化, 舊 N 卡的量化選擇應該比 Apple Silicon 多, 也可以跑 fine-tuning 雖然比 3090 慢就是了
ShadowPower
8 天前
@yanyuechuixue 共享显存不行,对 LLM 性能影响极大,因为 PCIe 带宽太小了。而且 4060Ti 还是 PCIe x8 接口……
kennylam777
8 天前
@yanyuechuixue Windows 的 shared VRAM 是能跑 LLM, 但超過了 dedicated VRAM 後性能會大幅下降, 得不償失
kzfile
8 天前
多卡独显只跑这个,性能有些过剩了。
大内存 mac 的话单人用应该还行
liulicaixiao
8 天前
copilot 和 cursor 都能白嫖,我觉得本地大模型真的没有必要,除非你是断网开发
F1Justin
8 天前
笔记本上用 ollama 跑了 Q4_K_M 量化的 2.5-coder ( 20GB ),推理速度感觉勉强可以接受
eval count: 383 token(s)
eval duration: 52.807s
eval rate: 7.25 tokens/s

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1089179

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX