离网 Centos 服务器部署 Qwen-2.5-Coder

2 天前
 leoSup

请教一下各位大佬,我想在一台隔离外网的服务器上搭建千问代码这个模型,我现在在服务器上安装了 Ollama ,然后去魔塔那边通过 git clone 下载了通义千问 2.5-代码-14B-Instruct-GGUF 模型文件,发现这个模型文件压缩称 tar 后有 150G ,服务器那边大概只有 200G 空间,估计是不能放进去并解压了。

不知是否有比较小的模型文件资源可以在 win 下载后,上传到服务器中通过 Ollama 启动使用?

我在 win 环境下通过 Ollama 下载的通义千问 2.5-代码-14B 只有 9G 的大小,在魔塔社区下载的确有 150 个 G ,这个是因为 Ollama 那边处理导致的吗?
1167 次点击
所在节点    Local LLM
6 条回复
MAzrael
2 天前
是不是下载了所有的量化版本?只需要下载你需要的版本就行,如 qwen2.5-coder-14b-instruct-q4_k_m.gguf 就只有 8.99G
leoSup
2 天前
@MAzrael #1 感谢,我确实是下载所有的量化版本,最近才开始接触部署 AI 大模型,对这些不太熟悉
Actrace
2 天前
最方便的办法是 Docker ,先在镜像里部署完成,然后打包镜像,拉到 CentOS 里。
vickhan
2 天前
下载好很多中间文件和 checkpoint 吧?那些直接删除就好了。14B 的模型没那么大
leoSup
1 天前
@vickhan #4 应该是 1 楼说的那种情况,直接 git clone 下载了所有量化版本,但只需要按需选择一个就行,不同的版本会有点差异,比如占用内存,生成速度,偏向等等
dcdlove
1 天前
Ollama 装载模型,然后 one api 将接口转换成 openapi 的方式,然后就各种自由搭配调用了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1096298

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX