1
HatMatrix 8 天前
但是 32B 的模型,你本地部署也不太容易呀
|
2
panxiuqing 8 天前
本地要什么硬件配置
|
3
spkingr 8 天前 via Android
厉害,本地部署能跑动的配置最低得多少呢?
|
4
ShadowPower OP @HatMatrix 双 3090 或者一块 RTX8000 改散热就可以了,运行 8bit 量化版本,质量损失很小。
我觉得再过一两年可能会有价格低廉的消费级设备来跑。 很多处理器和显卡的架构设计都是两年之前就开始的,当时根本不会有本地 LLM 的需求。 没准将来的普通电脑都会有四通道内存,搭载高性能 NPU 而且针对 LLM 特别优化,同时还有配套的软件设施。 |
5
ShadowPower OP @spkingr 如果追求运行速度,最低的话,都是整机售价一万多到两万的设备……
门槛还是有点高。 |
6
zhmouV2 8 天前
Deepseek 确实深有同感 cursor 上用 ds 的 api 问题很严重
|
7
kennylam777 8 天前
樓主在本地用量化跑吧? 有試過用 Continue 一類 VSCode 插件來用嗎?
|
8
Donaldo 8 天前
请问这个需要多少显存?
|
9
MakHoCheung 8 天前
|
10
kennylam777 8 天前
@ShadowPower 哈哈剛發帖就看到配置了, 雙 3090 跑 8bit 量化感覺 VRAM 很充裕, 多出的 VRAM 就用來撐起 context length,
我記得之前用 Qwen 2.5 32B 8bit 量化, 在雙 3090 設成 20K 也沒問題, 如今 Coder 版應該能盡用更大的 context window |
11
zhmouV2 8 天前
顺便看了下 ollama 上已经有各种量化版本了 https://ollama.com/library/qwen2.5-coder/tags
14b q2_k 应该是我本地 8G 显存能跑的极限了 有没有兄弟说说效果 |
12
ShadowPower OP @kennylam777 我还没试过用 Continue ,改天有空的时候试试看
|
13
ShadowPower OP @Donaldo 8bit 的权重有 30.29 GB ,再加上 context 的大小,40GB 应该足够了
|
14
yanyuechuixue 8 天前
看了一下,如果用 INT4 的模型,4090 没问题了。精度损失也很少。
但问题是不可能将一块 4090 用在这上面。成本太高了,不考虑保护隐私的情况下,还不如订阅 ChatGPT. 4060Ti 16G 的价格比较低,我买了一块,这个可以用来“全职”部署 LLM, 但目前即便是 INT4 也无法跑在 16G 上。 也许 Windows 的共享显存会有用,但不知道速度会降低到多少。 |
15
kennylam777 8 天前
@spkingr 淘寶上的 P40 很便宜, 組兩張應該能跑 32B 8bit 量化, 舊 N 卡的量化選擇應該比 Apple Silicon 多, 也可以跑 fine-tuning 雖然比 3090 慢就是了
|
16
ShadowPower OP @yanyuechuixue 共享显存不行,对 LLM 性能影响极大,因为 PCIe 带宽太小了。而且 4060Ti 还是 PCIe x8 接口……
|
17
kennylam777 8 天前
@yanyuechuixue Windows 的 shared VRAM 是能跑 LLM, 但超過了 dedicated VRAM 後性能會大幅下降, 得不償失
|
18
kzfile 8 天前
多卡独显只跑这个,性能有些过剩了。
大内存 mac 的话单人用应该还行 |
19
liulicaixiao 8 天前
copilot 和 cursor 都能白嫖,我觉得本地大模型真的没有必要,除非你是断网开发
|
20
F1Justin 8 天前
笔记本上用 ollama 跑了 Q4_K_M 量化的 2.5-coder ( 20GB ),推理速度感觉勉强可以接受
eval count: 383 token(s) eval duration: 52.807s eval rate: 7.25 tokens/s |
21
yanyuechuixue 8 天前
@liulicaixiao cursor 怎么白嫖呀?
|
22
yanyuechuixue 8 天前
@F1Justin 纯 CPU 么?
|
23
kizunai 8 天前 1
利好那些因为保密等原因,写代码的时候不能上网查资料的程序员。
现在只要在内网里面部署一个,开发效率大增 |
24
liulicaixiao 8 天前
@yanyuechuixue 直接注册就行,新用户免费 14 天,用完重新注册一个就好
|
25
nikenidage1 8 天前
@liulicaixiao #19 copilot 怎么白嫖呀?
|
26
so1n 8 天前
32b 的话显卡和内存的要求也挺高的把...再加上自己的一些程序,基本要高配才能运行
|
27
liulicaixiao 8 天前
@nikenidage1 用 edu 邮箱去 github 找学生包,学生权限里就有 copilot
|
28
spike0100 8 天前
|
29
kennylam777 8 天前 1
剛測了一下, 4090 跑 Qwen2.5 32B coder exl2 4.25b 量化, 速度約 32tokens/s, 配 VSCode Continue 能做不錯的"explain this code to me", Custom OpenAI API
之後用真實的任務試試看, 至少現在知道 4bit 配 Continue 直接能用, 希望有時間能比較一下 8bit 量化的分別 |
30
NouveauNom 8 天前
@zhmouV2 #6 我看了 cursor 当时没法用 Deepseek 的 api ,您是怎么设置的呢
|
31
kennylam777 8 天前
@spike0100 Apple Silicon + 24GB 應該能跑 GGUF q3 吧, q4 可能也可以但有點勉強
|
32
yxhzhang185 8 天前
mac studio 64G 能跑吗,效果怎么样
|
33
ooTwToo 8 天前
32B 的模型有点大,我想问下 通过 ollama 下载,有镜像加速吗? 太费梯子了。
|
34
Liftman 8 天前
很好。早上还探讨这个事情的。要不要把 qwen coder 来一套本地。。。
|
35
xloger 8 天前
请教一下,本地 LLM 有哪些比较好玩或者有用的用法嘛?
比如如题所说,可以跑本地的 AI 代码提示,而且应该可以用更多的项目本身上下文,效果说不定比 Copilot 好。( Copilot 因为隐私设置,感觉它并没有怎么学我项目里的一些写法)。 再有一个是 Obsidian 的一些 AI 插件,这样可以读我笔记的数据且也不用担心隐私问题。 所以还有啥用法嘛~我最近也想搭一个试试 |
36
youwang1997 8 天前
|
37
hutoer 8 天前
2 张 2080ti 22G ,价格不高,有条件的可以试试
|
39
F1Justin 8 天前
@yanyuechuixue M2 Pro ,应该是有 Metal 加速的(?
|
40
m1nm13 8 天前
|
41
SoulSleep 8 天前 1
没必要啊,直接阿里云百练开一个 api 就好了...部署模型的时间+硬件成本,够跑 10 年了......
QWen 2.5 Coder 刚出来就私有化部署了,云服务器成本 6k+/月,换成百练,一个月一两百块,用来做公司 gitlab 代码审查工具 |
43
kennylam777 8 天前
@m1nm13 nat1 這種沒標準化過的 jargon 也太欺負 LLM 了吧? Local AI 應該用在 code review 一類 RAG 的用途會比較好。
|
44
kennylam777 8 天前
@SoulSleep 你這種 use case 是 Ops 選錯方案啦, 租用雲 GPU 不是都為了 fine-tuning 嗎? 用完趕快關掉的那種, 6K 月費夠你買私有硬件了吧。當初沒調研過用量嗎?
|
45
beginor 8 天前 1
@kennylam777 continue 的本地话提示分两种,
一种是 tabAutocompleteModel 也就是写代码时的智能提示,这个本地模型推荐的是 starcoder2-3b.q8_0.gguf ,这个只有 3G 大小, 一般的显卡甚至 CPU 都可以跑,效果不错, 基本上每天都在用; 另一种是 chat , 也就是问答, 资源富裕的话跑 gemma 2 27b 或者 qwen 2.5 coder 32b 都可以这个规模的模型应对代码问答肯定没问题了;, 如果不富裕的话,跑个 7b/8b 的做问答也不是不行,但是效果肯定不如 27b/32b 规模的。 |
46
JayZXu 8 天前
Qwen2.5 Coder 32B 确实挺好,能够配合 override 使用了
|
48
andytao 8 天前
Qwen2.5 Coder 32B 的代码质量已经很高了;
袋鼠数据库工具已经搭载 Ollama 提供了 Qwen2.5 Coder 32B 的本地化支持,并提供了数据库专有配套,体验还不错; |
49
Donaldo 8 天前
@kennylam777 #43 不会,测试了几个在线的和离线的,答的都不错。这种已经算是事实上的标准称呼了,没啥太难的。
|
50
jianzhao123 8 天前 via iPhone
@F1Justin 哥们你啥配置啊,我这 3050 4GB 跑个 Qwen 7B Q4 量化的都卡的一批
|
51
wnanbei 8 天前
4060 8G 的笔记本跑了个 qwen2.5-coder:7b-instruct-q8_0 ,通过 continue 接入 vscode 用,感觉还可以
|
52
kevan 7 天前
试试 B 站的 1GB 版本。我觉得本地部署很好了。
|
53
F1Justin 7 天前
@jianzhao123 Apple 的 M2 Pro ,32G 统一内存()
|
54
mintist 7 天前
冲一个
|
55
sampeng 7 天前
本地基本不太可能。只能做一些特别指向性的和 ai agent 配合的工作。开发,chat 这种通用性工作实在不划算,错误的提示影响编码节奏,也特别浪费心情。
我就算你显卡也好 mac 也好。算你 1 万额外成本不过分吧。 按 chatgpt 的 20 美金一个月算 1 万大洋约等于 7 年。其实一般 chatgpt 也用不上。。编码直接 github copilot 用已经无敌了。同样 1 万额外的支出能得到 10 多年的使用效果。我特别不理解本地跑 coder 的所谓效果为什么能接受。简直是天壤之别,尤其是现在 copilot 支持了 claude 。。我通常都是花很长时间描述我的输入和输出要求。本地?想都别想。。。自动提示本地那个 token 生成时间黄花菜都凉了。 |
56
kennylam777 7 天前
@sampeng 有道理, 即使工作上要 deploy LLM 也應該優先選擇 ChatGPT/Claude API 按量付費。
但對於本來就有 4090 和 3090 用來玩遊戲的我, Local AI 就是用來榨出現有硬件價值的玩法。 我相信 Apple Silicon 的玩法也是一樣的, 本來就會買一台機來用, 看到免費的 LLM 拿來用起碼不必多訂閱一個服務。 |
57
Yadomin 7 天前
@ooTwToo 你需要 modelscope, https://modelscope.cn/models/Qwen/Qwen2.5-Coder-32B-Instruct
|
58
sampeng 7 天前 via iPhone
@kennylam777 local ai 不是完全不行,完成特定的任务是 ok 的。幻觉问题调试过程中很好解决。比如把文档总结一下,做一下自动归类,智能分析工作这类还是很 OK 的。只不过 code 啊,chat 啊这类需要及时响应,最大限度的不要出错,copilot 或者 chatgpt o1 才是最终解。何必自己为难自己。
|
59
SantinoSong 7 天前
@yanyuechuixue #14 魔改的 22g 3080 呢
|
60
jianzhao123 7 天前 via iPhone
@F1Justin 那没事了
|
61
trungdieu031 7 天前
配 64G 内存的主机,做下量化,完全可以跑 32B 的模型了。如果不特别追求速度的话也不用非得上两块 GPU~
|
62
WispZhan 7 天前
M3 MAX 128G 或者 M4 Ultra 128G 应该能勉强跑起来吧,只是 token 输出有点慢。
|
63
GuryYu 7 天前
|
64
orangeD 7 天前
@spike0100 那手头的机器刚测了一下,Qwen2.5 32b 模型 M4Pro 高配+48G 内存上能达到 10.55tokens/s ,M1Pro 高配+32G 内存 :6.83 tokens/s
|
65
yinmin 7 天前
问:你使用哪个 AI 模型?是哪个公司开发的?
回答的结果有点出乎意料,又有点意料之中。2024 年末训练出来的 AI 还出这种情况,汗~ |
66
emberzhang 7 天前
@orangeD 我刚才拿 m2 max 跑 qwen2.5:32b 是 11.04 toks ,这个 toks 没法用代码补完的,根本等不到出字。chat 的话倒是基本没问题
@yanyuechuixue 显存爆了之后直接扑街,刚才拿 4070tis+8845hs+5600mhz 内存,qwen2.5:32b 只有 6.00 toks |
67
chachi 7 天前
m4max
qwen2.5 coder 32B Q8 MLX 12.94 tok/sec |
68
234ygg 7 天前
别搞笑了,连 3.5 都远不如,还和 4o 比。。。只能说你写的代码毫无价值
|
69
csys 7 天前
这个确实很不错,主要是 32B 刚好碰到了本地部署的门槛了
|
70
Ayahuasec 7 天前
手头在用 2080ti 22g 跑,32b q4_k_s 性能大概是 prompt_token/s: 475.37, response_token/s: 23.82
qwen2.5-coder-32b 的输出感觉和 qwen2.5-32b 差不太多,之前耍 qwen2.5 已经觉得有很高的可用性了 |
71
ShadowPower OP @234ygg 3.5 没有你想象中那么强,目前 7B 参数量就有 3.5 的能力。3.5 只能写一些模板代码,或者提供代码给它做一些调整,写不出有点深度的东西。
只是在那个从 0 到 1 的时期显得非常惊艳罢了。 |
72
ShadowPower OP @WispZhan M3 MAX 128G 可以随便跑,估计还挺快的。M4 Ultra 还没发布呢……
|
73
leo72638 7 天前
请问怎么确定自己的硬件适合什么模型
|
74
cooltechbs 7 天前 via Android 1
原来 DeepSeek 本身就有循环输出一个单词的问题啊。我还以为是我 finetune 搞坏了...
|
76
fox0001 7 天前 via Android
本地化部署的话,lm studio 给我打开了新世界
|
77
dimondai 7 天前
本地上 MAC Mini M4 能跑了吧?
|
81
nutting 7 天前
24G 显存的 p40 显卡能玩吗
|
82
yanyuechuixue 7 天前
|
83
Loocor 7 天前
哈哈,今天我也有这样的感概,不过不实用 32b 而是 7b ,因为我手上的机器是 m3 16Gb Macbook Air...
实际跑下来的速度可以接受,12.69 tok/sec 而电脑 cpu/mem 占用没超过 50% 所以 m4 / m4 pro 就可以期待了 |
84
yanyuechuixue 7 天前
@yanyuechuixue ok 找到了,谢谢!
|
86
beginor 7 天前
看来 M1 Max 还是很能打的嘛, 本地用 llama.cpp 跑 qwen2.5-coder-32b-instruct-q8_0.gguf 结果如下:
``` prompt eval time = 2354.87 ms / 117 tokens ( 20.13 ms per token, 49.68 tokens per second) eval time = 71813.88 ms / 521 tokens ( 137.84 ms per token, 7.25 tokens per second) total time = 74168.75 ms / 638 tokens srv update_slots: all slots are idle request: POST /chat/completions 127.0.0.1 200 ``` 自己用的话还是可以的,继续等 M5 、M6 、M7 ... |
87
beginor 7 天前
@emberzhang 补全代码用 starcoder2-3b.q8_0.gguf 就好,超过 7b 的都是浪费。chat 可以再跑一个大一点儿的
|
88
glcolof 7 天前
32B 使用 4bit 量化,可以在 4090 上比较流畅的跑了。但是上下文长度可能跑不到 128K ,我还没试过。
其实 14B 的模型也很有可用性了。 |
89
kennylam777 7 天前
@yanyuechuixue 你是問 exl2 的量化吧? 我用這個, bartowski 家的 exl2 量化很多。
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2 這種 model 應該大家都用的 Instruct 版, Base model 沒 SFT 過應該不好用。 @glcolof 我在 Windows 跑 4.25b 量化, 20K 是沒問題的, 節省其他開銷的話可能 30K 也行, 但我也沒調過 YARN 就是了。 |
91
9 7 天前
本地大模型纯折腾,现在网上这么多好用的
|
92
WispZhan 7 天前
@ShadowPower M4 Ultra 快了,不是这个月底,就是下个月。和 Studio 一起吧
|
95
yanyuechuixue 7 天前
@kennylam777 不好意思,我是个新手,能否请教您一下,不同的量化有什么不同呀?
例如 exl2 量化,W4A16 量化 , GPTQ 量化,他们的性能会有比较大的不同么? 我现在简单起见,直接用了 ollama 给出的 Int4 ,想去挑一个好的 |
96
clino 7 天前
@zhmouV2 我在 cursor 上用 deepseek 感觉还挺好,你说的是哪方面问题?
是不是我很多时候是在用 ctrl+k 做局部代码迭代,所以比较没有碰到你们说的这些问题。 |
97
kennylam777 5 天前
@yanyuechuixue 不同量化方案各有千秋, 主要分別是硬件支援, 表現也各有不同。
例如 exl2 是我用過最快的方案, 而且量化選擇比較多. 4bit 以外還有 5/5.5/6bit 等等, 對我來說比較容易選一個剛好塞進 4090 的配搭。問題是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援軟件不足, 也不能配 PEFT, 所以只能用來跑推理。 GPTQ 是只有 4bit 和 8bit 兩個選擇, VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好處是支援軟件比較多, 而且能直接用 PEFT 做 LoRA 微調。 GGUF 沒用過, 但我知道 Apple Silicon 的用家都是靠它的量化。 其實還有 bitsandbytes 的量化, 直接載入原 model 時的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微調的話, bitsandbytes 還是最通用的方案。 |
98
yanyuechuixue 4 天前
|