体验了 Qwen2.5 Coder 32B 之后，我觉得本地 LLM 能用了

98 条回复 • 2024-11-17 10:53:33 +08:00

1

HatMatrix

2024 年 11 月 13 日

但是 32B 的模型，你本地部署也不太容易呀

2

panxiuqing

2024 年 11 月 13 日

本地要什么硬件配置

3

spkingr

2024 年 11 月 13 日 via Android

厉害，本地部署能跑动的配置最低得多少呢？

4

ShadowPower

OP

2024 年 11 月 13 日

2

@HatMatrix 双 3090 或者一块 RTX8000 改散热就可以了，运行 8bit 量化版本，质量损失很小。
我觉得再过一两年可能会有价格低廉的消费级设备来跑。
很多处理器和显卡的架构设计都是两年之前就开始的，当时根本不会有本地 LLM 的需求。
没准将来的普通电脑都会有四通道内存，搭载高性能 NPU 而且针对 LLM 特别优化，同时还有配套的软件设施。

5

ShadowPower

OP

2024 年 11 月 13 日

@spkingr 如果追求运行速度，最低的话，都是整机售价一万多到两万的设备……
门槛还是有点高。

6

zhmouV2

2024 年 11 月 13 日

Deepseek 确实深有同感 cursor 上用 ds 的 api 问题很严重

7

kennylam777

2024 年 11 月 13 日

樓主在本地用量化跑吧? 有試過用 Continue 一類 VSCode 插件來用嗎?

8

Donaldo

2024 年 11 月 13 日

请问这个需要多少显存？

9

MakHoCheung

2024 年 11 月 13 日

@panxiuqing https://x.com/ozgrozer/status/1856142448721793197 M4 Max 可以跑

10

kennylam777

2024 年 11 月 13 日

@ShadowPower 哈哈剛發帖就看到配置了, 雙 3090 跑 8bit 量化感覺 VRAM 很充裕, 多出的 VRAM 就用來撐起 context length,

我記得之前用 Qwen 2.5 32B 8bit 量化, 在雙 3090 設成 20K 也沒問題, 如今 Coder 版應該能盡用更大的 context window

11

zhmouV2

2024 年 11 月 13 日

顺便看了下 ollama 上已经有各种量化版本了 https://ollama.com/library/qwen2.5-coder/tags
14b q2_k 应该是我本地 8G 显存能跑的极限了有没有兄弟说说效果

12

ShadowPower

OP

2024 年 11 月 13 日

1

@kennylam777 我还没试过用 Continue ，改天有空的时候试试看

13

ShadowPower

OP

2024 年 11 月 13 日

1

@Donaldo 8bit 的权重有 30.29 GB ，再加上 context 的大小，40GB 应该足够了

14

yanyuechuixue

2024 年 11 月 13 日

看了一下，如果用 INT4 的模型，4090 没问题了。精度损失也很少。
但问题是不可能将一块 4090 用在这上面。成本太高了，不考虑保护隐私的情况下，还不如订阅 ChatGPT.

4060Ti 16G 的价格比较低，我买了一块，这个可以用来“全职”部署 LLM, 但目前即便是 INT4 也无法跑在 16G 上。

也许 Windows 的共享显存会有用，但不知道速度会降低到多少。

15

kennylam777

2024 年 11 月 13 日

@spkingr 淘寶上的 P40 很便宜, 組兩張應該能跑 32B 8bit 量化, 舊 N 卡的量化選擇應該比 Apple Silicon 多, 也可以跑 fine-tuning 雖然比 3090 慢就是了

16

ShadowPower

OP

2024 年 11 月 13 日

@yanyuechuixue 共享显存不行，对 LLM 性能影响极大，因为 PCIe 带宽太小了。而且 4060Ti 还是 PCIe x8 接口……

17

kennylam777

2024 年 11 月 13 日

@yanyuechuixue Windows 的 shared VRAM 是能跑 LLM, 但超過了 dedicated VRAM 後性能會大幅下降, 得不償失

18

penisulaS

2024 年 11 月 13 日

多卡独显只跑这个，性能有些过剩了。
大内存 mac 的话单人用应该还行

19

liulicaixiao

2024 年 11 月 13 日

copilot 和 cursor 都能白嫖，我觉得本地大模型真的没有必要，除非你是断网开发

20

F1Justin

2024 年 11 月 13 日

笔记本上用 ollama 跑了 Q4_K_M 量化的 2.5-coder （ 20GB ），推理速度感觉勉强可以接受
eval count: 383 token(s)
eval duration: 52.807s
eval rate: 7.25 tokens/s

21

yanyuechuixue

2024 年 11 月 13 日

@liulicaixiao cursor 怎么白嫖呀？

22

yanyuechuixue

2024 年 11 月 13 日

@F1Justin 纯 CPU 么？

23

kizunai

2024 年 11 月 13 日

2

利好那些因为保密等原因，写代码的时候不能上网查资料的程序员。
现在只要在内网里面部署一个，开发效率大增

24

liulicaixiao

2024 年 11 月 13 日

@yanyuechuixue 直接注册就行，新用户免费 14 天，用完重新注册一个就好

25

liuliuliuliu

PRO

2024 年 11 月 13 日

@liulicaixiao #19 copilot 怎么白嫖呀？

26

so1n

2024 年 11 月 13 日

32b 的话显卡和内存的要求也挺高的把...再加上自己的一些程序，基本要高配才能运行

27

liulicaixiao

2024 年 11 月 13 日

@nikenidage1 用 edu 邮箱去 github 找学生包,学生权限里就有 copilot

28

spike0100

2024 年 11 月 13 日

24g 内存的 m4pro mbp 是不是只能跑 Qwen2.5 Coder 7b 。

29

kennylam777

2024 年 11 月 13 日

1

剛測了一下, 4090 跑 Qwen2.5 32B coder exl2 4.25b 量化, 速度約 32tokens/s, 配 VSCode Continue 能做不錯的"explain this code to me", Custom OpenAI API

之後用真實的任務試試看, 至少現在知道 4bit 配 Continue 直接能用, 希望有時間能比較一下 8bit 量化的分別

30

NouveauNom

2024 年 11 月 13 日

@zhmouV2 #6 我看了 cursor 当时没法用 Deepseek 的 api ，您是怎么设置的呢

31

kennylam777

2024 年 11 月 13 日

@spike0100 Apple Silicon + 24GB 應該能跑 GGUF q3 吧, q4 可能也可以但有點勉強

32

yxhzhang185

2024 年 11 月 13 日

mac studio 64G 能跑吗，效果怎么样

33

ooTwToo

2024 年 11 月 13 日

32B 的模型有点大，我想问下通过 ollama 下载，有镜像加速吗？太费梯子了。

34

Liftman

2024 年 11 月 13 日

很好。早上还探讨这个事情的。要不要把 qwen coder 来一套本地。。。

35

xloger

2024 年 11 月 13 日

请教一下，本地 LLM 有哪些比较好玩或者有用的用法嘛？
比如如题所说，可以跑本地的 AI 代码提示，而且应该可以用更多的项目本身上下文，效果说不定比 Copilot 好。（ Copilot 因为隐私设置，感觉它并没有怎么学我项目里的一些写法）。
再有一个是 Obsidian 的一些 AI 插件，这样可以读我笔记的数据且也不用担心隐私问题。

所以还有啥用法嘛~我最近也想搭一个试试

36

eric1

2024 年 11 月 13 日

Qwen2.5 真有东西的，开源模型妥妥第一梯队了。之前需要微调+用一个 8b 左右的模型，感觉 Qwen2.5 7b 比 llama3 8b 好用。

不过对于 chatgpt 我个人觉得 4o 并不如 4 ，4o 参数数量应该不如 4

37

hutoer

2024 年 11 月 13 日

2 张 2080ti 22G ，价格不高，有条件的可以试试

38

Freakr

2024 年 11 月 13 日

@ooTwToo 32# ollama 不是能直连嘛

39

F1Justin

2024 年 11 月 13 日

@yanyuechuixue M2 Pro ，应该是有 Metal 加速的（？

40

m1nm13

2024 年 11 月 13 日

...听说还行我就去试了一下...结果连问题都听不懂

41

SoulSleep

2024 年 11 月 13 日

1

没必要啊，直接阿里云百练开一个 api 就好了...部署模型的时间+硬件成本，够跑 10 年了......

QWen 2.5 Coder 刚出来就私有化部署了，云服务器成本 6k+/月，换成百练，一个月一两百块，用来做公司 gitlab 代码审查工具

42

Donaldo

2024 年 11 月 13 日

@m1nm13 #40 是不是选错模型了？

43

kennylam777

2024 年 11 月 13 日

@m1nm13 nat1 這種沒標準化過的 jargon 也太欺負 LLM 了吧? Local AI 應該用在 code review 一類 RAG 的用途會比較好。

44

kennylam777

2024 年 11 月 13 日

@SoulSleep 你這種 use case 是 Ops 選錯方案啦, 租用雲 GPU 不是都為了 fine-tuning 嗎? 用完趕快關掉的那種, 6K 月費夠你買私有硬件了吧。當初沒調研過用量嗎?

45

beginor

2024 年 11 月 13 日

1

@kennylam777 continue 的本地话提示分两种，

一种是 tabAutocompleteModel 也就是写代码时的智能提示，这个本地模型推荐的是 starcoder2-3b.q8_0.gguf ，这个只有 3G 大小，一般的显卡甚至 CPU 都可以跑，效果不错，基本上每天都在用；

另一种是 chat ，也就是问答，资源富裕的话跑 gemma 2 27b 或者 qwen 2.5 coder 32b 都可以这个规模的模型应对代码问答肯定没问题了；，如果不富裕的话，跑个 7b/8b 的做问答也不是不行，但是效果肯定不如 27b/32b 规模的。

46

JayZXu

2024 年 11 月 13 日

Qwen2.5 Coder 32B 确实挺好，能够配合 override 使用了

47

m1nm13

2024 年 11 月 13 日

@Donaldo #41 我的,我点进去直接就问了.我还以为 LZ 直接提供了对应模型的入口.

48

9dP06m83vIV00l72

2024 年 11 月 13 日

Qwen2.5 Coder 32B 的代码质量已经很高了；

袋鼠数据库工具已经搭载 Ollama 提供了 Qwen2.5 Coder 32B 的本地化支持，并提供了数据库专有配套，体验还不错；

49

Donaldo

2024 年 11 月 13 日

@kennylam777 #43 不会，测试了几个在线的和离线的，答的都不错。这种已经算是事实上的标准称呼了，没啥太难的。

50

jianzhao123

2024 年 11 月 13 日 via iPhone

@F1Justin 哥们你啥配置啊，我这 3050 4GB 跑个 Qwen 7B Q4 量化的都卡的一批

51

wnanbei

2024 年 11 月 13 日

4060 8G 的笔记本跑了个 qwen2.5-coder:7b-instruct-q8_0 ，通过 continue 接入 vscode 用，感觉还可以

52

kevan

2024 年 11 月 13 日

试试 B 站的 1GB 版本。我觉得本地部署很好了。

53

F1Justin

2024 年 11 月 13 日

@jianzhao123 Apple 的 M2 Pro ，32G 统一内存（）

54

mintist

2024 年 11 月 13 日

冲一个

55

sampeng

2024 年 11 月 13 日

本地基本不太可能。只能做一些特别指向性的和 ai agent 配合的工作。开发，chat 这种通用性工作实在不划算，错误的提示影响编码节奏，也特别浪费心情。
我就算你显卡也好 mac 也好。算你 1 万额外成本不过分吧。
按 chatgpt 的 20 美金一个月算 1 万大洋约等于 7 年。其实一般 chatgpt 也用不上。。编码直接 github copilot 用已经无敌了。同样 1 万额外的支出能得到 10 多年的使用效果。我特别不理解本地跑 coder 的所谓效果为什么能接受。简直是天壤之别，尤其是现在 copilot 支持了 claude 。。我通常都是花很长时间描述我的输入和输出要求。本地？想都别想。。。自动提示本地那个 token 生成时间黄花菜都凉了。

56

kennylam777

2024 年 11 月 13 日

@sampeng 有道理, 即使工作上要 deploy LLM 也應該優先選擇 ChatGPT/Claude API 按量付費。

但對於本來就有 4090 和 3090 用來玩遊戲的我, Local AI 就是用來榨出現有硬件價值的玩法。

我相信 Apple Silicon 的玩法也是一樣的, 本來就會買一台機來用, 看到免費的 LLM 拿來用起碼不必多訂閱一個服務。

57

Yadomin

2024 年 11 月 13 日

@ooTwToo 你需要 modelscope, https://modelscope.cn/models/Qwen/Qwen2.5-Coder-32B-Instruct

58

sampeng

2024 年 11 月 13 日 via iPhone

@kennylam777 local ai 不是完全不行，完成特定的任务是 ok 的。幻觉问题调试过程中很好解决。比如把文档总结一下，做一下自动归类，智能分析工作这类还是很 OK 的。只不过 code 啊，chat 啊这类需要及时响应，最大限度的不要出错，copilot 或者 chatgpt o1 才是最终解。何必自己为难自己。

59

SantinoSong

2024 年 11 月 13 日

@yanyuechuixue #14 魔改的 22g 3080 呢

60

jianzhao123

2024 年 11 月 13 日 via iPhone

@F1Justin 那没事了

61

trungdieu031

2024 年 11 月 13 日

配 64G 内存的主机，做下量化，完全可以跑 32B 的模型了。如果不特别追求速度的话也不用非得上两块 GPU~

62

WispZhan

2024 年 11 月 13 日

M3 MAX 128G 或者 M4 Ultra 128G 应该能勉强跑起来吧，只是 token 输出有点慢。

63

GuryYu

2024 年 11 月 13 日

1

M3 max, 运行 32B 模型测试，感觉已经可以基本满足日常使用了

32B Q4：处理速度 13.07 tok/sec 占用统一内存 21G
32B Q6：处理速度 8.58 tok/sec 占用统一内存 29G
32B Q8：处理速度 9.76 tok/sec 占用统一内存 40G ，（ MLX ）

另外也测试了 14B 模型
14B Q4：处理速度 22.83 tok/sec 占用统一内存 11G

64

orangeD

2024 年 11 月 13 日

1

@spike0100 那手头的机器刚测了一下，Qwen2.5 32b 模型 M4Pro 高配+48G 内存上能达到 10.55tokens/s ，M1Pro 高配+32G 内存：6.83 tokens/s

65

yinmin

2024 年 11 月 13 日

问：你使用哪个 AI 模型？是哪个公司开发的？

回答的结果有点出乎意料，又有点意料之中。2024 年末训练出来的 AI 还出这种情况，汗~

66

emberzhang

2024 年 11 月 13 日

@orangeD 我刚才拿 m2 max 跑 qwen2.5:32b 是 11.04 toks ，这个 toks 没法用代码补完的，根本等不到出字。chat 的话倒是基本没问题

@yanyuechuixue 显存爆了之后直接扑街，刚才拿 4070tis+8845hs+5600mhz 内存，qwen2.5:32b 只有 6.00 toks

67

chachi

2024 年 11 月 14 日

m4max
qwen2.5 coder 32B Q8 MLX
12.94 tok/sec

68

234ygg

2024 年 11 月 14 日

1

别搞笑了，连 3.5 都远不如，还和 4o 比。。。只能说你写的代码毫无价值

69

csys

2024 年 11 月 14 日

这个确实很不错，主要是 32B 刚好碰到了本地部署的门槛了

70

Ayahuasec

2024 年 11 月 14 日

手头在用 2080ti 22g 跑，32b q4_k_s 性能大概是 prompt_token/s: 475.37, response_token/s: 23.82
qwen2.5-coder-32b 的输出感觉和 qwen2.5-32b 差不太多，之前耍 qwen2.5 已经觉得有很高的可用性了

71

ShadowPower

OP

2024 年 11 月 14 日

@234ygg 3.5 没有你想象中那么强，目前 7B 参数量就有 3.5 的能力。3.5 只能写一些模板代码，或者提供代码给它做一些调整，写不出有点深度的东西。
只是在那个从 0 到 1 的时期显得非常惊艳罢了。

72

ShadowPower

OP

2024 年 11 月 14 日

@WispZhan M3 MAX 128G 可以随便跑，估计还挺快的。M4 Ultra 还没发布呢……

73

leo72638

2024 年 11 月 14 日

请问怎么确定自己的硬件适合什么模型

74

cooltechbs

2024 年 11 月 14 日 via Android

1

原来 DeepSeek 本身就有循环输出一个单词的问题啊。我还以为是我 finetune 搞坏了...

75

mayli

2024 年 11 月 14 日

@GuryYu 你这是啥工具？

76

fox0001

2024 年 11 月 14 日 via Android

本地化部署的话，lm studio 给我打开了新世界

77

dimondai

2024 年 11 月 14 日

本地上 MAC Mini M4 能跑了吧？

78

fox0001

2024 年 11 月 14 日 via Android

1

@leo72638 #73 我用过 LM Studio ，直接从 huggingface 下载模型，并且会标识那些能在本机跑

79

GuryYu

2024 年 11 月 14 日

@mayli #75 LM Studio

80

Cloud9527

2024 年 11 月 14 日

@234ygg 3.5 已经有点老了好吧

81

nutting

2024 年 11 月 14 日

24G 显存的 p40 显卡能玩吗

82

yanyuechuixue

2024 年 11 月 14 日

@kennylam777
能给一个 coder 的链接不？
我只找到了 instruct 的链接

83

Loocor

2024 年 11 月 14 日

哈哈，今天我也有这样的感概，不过不实用 32b 而是 7b ，因为我手上的机器是 m3 16Gb Macbook Air...
实际跑下来的速度可以接受，12.69 tok/sec
而电脑 cpu/mem 占用没超过 50%
所以 m4 / m4 pro 就可以期待了

84

yanyuechuixue

2024 年 11 月 14 日

@yanyuechuixue ok 找到了，谢谢！

85

zdt3476

2024 年 11 月 14 日

@orangeD 32G 内存也能跑啊。那我用我的 M2 Max 试试

86

beginor

2024 年 11 月 14 日

看来 M1 Max 还是很能打的嘛，本地用 llama.cpp 跑 qwen2.5-coder-32b-instruct-q8_0.gguf 结果如下：

```
prompt eval time = 2354.87 ms / 117 tokens ( 20.13 ms per token, 49.68 tokens per second)
eval time = 71813.88 ms / 521 tokens ( 137.84 ms per token, 7.25 tokens per second)
total time = 74168.75 ms / 638 tokens
srv update_slots: all slots are idle
request: POST /chat/completions 127.0.0.1 200
```

自己用的话还是可以的，继续等 M5 、M6 、M7 ...

87

beginor

2024 年 11 月 14 日

@emberzhang 补全代码用 starcoder2-3b.q8_0.gguf 就好，超过 7b 的都是浪费。chat 可以再跑一个大一点儿的

88

glcolof

2024 年 11 月 14 日

32B 使用 4bit 量化，可以在 4090 上比较流畅的跑了。但是上下文长度可能跑不到 128K ，我还没试过。
其实 14B 的模型也很有可用性了。

89

kennylam777

2024 年 11 月 14 日

@yanyuechuixue 你是問 exl2 的量化吧? 我用這個, bartowski 家的 exl2 量化很多。
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2

這種 model 應該大家都用的 Instruct 版, Base model 沒 SFT 過應該不好用。

@glcolof 我在 Windows 跑 4.25b 量化, 20K 是沒問題的, 節省其他開銷的話可能 30K 也行, 但我也沒調過 YARN 就是了。

90

plutomiao

2024 年 11 月 14 日

@hutoer 魔改的哪里买靠谱啊。。

91

9

2024 年 11 月 14 日

本地大模型纯折腾，现在网上这么多好用的

92

WispZhan

2024 年 11 月 14 日

@ShadowPower M4 Ultra 快了，不是这个月底，就是下个月。和 Studio 一起吧

93

WispZhan

2024 年 11 月 14 日

@WispZhan 搞错了，应该没那么快

94

Donaldo

2024 年 11 月 14 日

@9 #91 跑个翻译的还不错。

95

yanyuechuixue

2024 年 11 月 14 日

@kennylam777 不好意思，我是个新手，能否请教您一下，不同的量化有什么不同呀？

例如 exl2 量化，W4A16 量化 , GPTQ 量化，他们的性能会有比较大的不同么？

我现在简单起见，直接用了 ollama 给出的 Int4 ，想去挑一个好的

96

clino

2024 年 11 月 14 日

@zhmouV2 我在 cursor 上用 deepseek 感觉还挺好，你说的是哪方面问题？
是不是我很多时候是在用 ctrl+k 做局部代码迭代，所以比较没有碰到你们说的这些问题。

97

kennylam777

2024 年 11 月 15 日

@yanyuechuixue 不同量化方案各有千秋, 主要分別是硬件支援, 表現也各有不同。

例如 exl2 是我用過最快的方案, 而且量化選擇比較多. 4bit 以外還有 5/5.5/6bit 等等, 對我來說比較容易選一個剛好塞進 4090 的配搭。問題是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援軟件不足, 也不能配 PEFT, 所以只能用來跑推理。

GPTQ 是只有 4bit 和 8bit 兩個選擇, VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好處是支援軟件比較多, 而且能直接用 PEFT 做 LoRA 微調。

GGUF 沒用過, 但我知道 Apple Silicon 的用家都是靠它的量化。

其實還有 bitsandbytes 的量化, 直接載入原 model 時的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微調的話, bitsandbytes 還是最通用的方案。

98

yanyuechuixue

2024 年 11 月 17 日

@kennylam777 非常感谢！

我还得多加学习。
那我用 exl2 就好了，我也正是有一个 4090 和 4060ti , 也只是用来做对话，足够了。

感谢大哥!