本地 4xV100 平台部署 Qwen2.5 72B GPT-Q int4
,命令如下:
lmdeploy serve api_server ./Qwen2.5-72B-Instruct-GPTQ-Int4 --cache-max-entry-count 0.4 --model-format gptq --tp 4
在 CodeGeeX 插件中启用本地模型,配置自定义提示词:
You are Qwen, created by Alibaba Cloud. You are a helpful assistant. You are profound in coding.
我会给你我的代码片段,结构如下<|code_prefix|>:光标前的代码
<|code_middle|>:你需要在这后面预测光标处的代码
<|code_suffix|>:光标后的代码
你需要根据光标前后的代码给我中间的代码;不要废话,不要输出 code_suffix 、code_prefix 、code_middle ;不要将代码放在代码块内;只输出纯代码
生成速度能到 80 tps
,补全几乎无延迟,实际使用体验代码能力和 Deepseek api
不相上下,但是响应速度快三到四倍。
目前的痛点在于 CodeGeeX 本地模式不支持直接引用文件,想问问有推荐的 vscode 插件吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.