离网 Centos 服务器部署 Qwen-2.5-Coder

2 天前

leoSup

请教一下各位大佬，我想在一台隔离外网的服务器上搭建千问代码这个模型，我现在在服务器上安装了 Ollama ，然后去魔塔那边通过 git clone 下载了通义千问 2.5-代码-14B-Instruct-GGUF 模型文件，发现这个模型文件压缩称 tar 后有 150G ，服务器那边大概只有 200G 空间，估计是不能放进去并解压了。

不知是否有比较小的模型文件资源可以在 win 下载后，上传到服务器中通过 Ollama 启动使用？

我在 win 环境下通过 Ollama 下载的通义千问 2.5-代码-14B 只有 9G 的大小，在魔塔社区下载的确有 150 个 G ，这个是因为 Ollama 那边处理导致的吗？

1167 次点击

所在节点

Local LLM

6 条回复

MAzrael

2 天前

是不是下载了所有的量化版本？只需要下载你需要的版本就行，如 qwen2.5-coder-14b-instruct-q4_k_m.gguf 就只有 8.99G

leoSup

2 天前

@MAzrael #1 感谢，我确实是下载所有的量化版本，最近才开始接触部署 AI 大模型，对这些不太熟悉

Actrace

2 天前

最方便的办法是 Docker ，先在镜像里部署完成，然后打包镜像，拉到 CentOS 里。

vickhan

2 天前

下载好很多中间文件和 checkpoint 吧？那些直接删除就好了。14B 的模型没那么大

leoSup

1 天前

@vickhan #4 应该是 1 楼说的那种情况，直接 git clone 下载了所有量化版本，但只需要按需选择一个就行，不同的版本会有点差异，比如占用内存，生成速度，偏向等等

dcdlove

1 天前

Ollama 装载模型，然后 one api 将接口转换成 openapi 的方式，然后就各种自由搭配调用了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1096298

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.