8x4090 离线部署 Qwen2.5 求助

2 天前
 fid

设备配置

需求

方案

有没有一种好的方式快速部署

1951 次点击
所在节点    程序员
40 条回复
qiniu2025
2 天前
拿个 32B 开源想跟现在行业龙头 gpt 4o 比,你要给用户提供什么服务? 这种聊天机器人满大街都是
fid
2 天前
@qiniu2025 #1 自用,离线环境部署只能选 32B
Leon6868
2 天前
8x4090 跑 ollama ,不如借给我用()(感兴趣可以联系 cXRiYm9zajVzQG1vem1haWwuY29t ,我可以帮你配置环境)

我个人的推荐是 lmdeploy + Qwen2.5 72B awq int8 ,响应速度很快,支持多卡,在 4xV100 上实跑 72B gptq int4 比 vllm 好用
mmjy
2 天前
vllm 文档是有量化实验特性支持的,可以试试好不好用: https://docs.vllm.ai/en/latest/quantization/auto_awq.html
GPLer
2 天前
8x24GB 为什么不上 72B ,是要考虑多用户使用的情况吗。
Livid
2 天前
fid
2 天前
@Leon6868 #3 离线环境无法远程:)
感谢提供 LMdeploy (┌・ω・)┌✧
fid
2 天前
@mmjy #4 好的,好像确实可以,就是配置麻烦,我对比一下
fid
2 天前
@GPLer #5 用户数在 0-10 左右,不过确实可以上 72B ,我考虑下量化(服务器可能被用于跑其他深度学习,不好说)
fid
2 天前
@Livid #6 等多来几台服务器试试集群(),目前环境较为封闭,可用设备只有一台 8x4090
Azure99
2 天前
lmdeploy≈sglang>vllm ,个人偏好是这样
Fanhz
2 天前
可以试下 sglang
mythabc
2 天前
1. 为什么单张可用 60%? 把其他任务都集中到 4 张显卡上,剩余 4 张用于跑 72b-awq 。多卡不建议超过 4 张,因为通信成本。
2. vllm 支持量化模型的。生产上用的最多的就是 vllm ,然后是 sglang (但是个人体感 sglang 比 vllm 稳定一些,因为版本都在不断迭代,所以仅是时效性的使用感受)。ollama 基于 llama.cpp ,这个项目最初就是用于在资源有限环境把模型 offload 到内存里跑起来的,一般就是个人玩具使用。
3. 喜欢一键的话,可以试一下 xinference ,有 docker 镜像,挺好用。
4. web 方案其实是各种 web client + openai style api ,各个推理引擎以 openai style api 将接口提供出来,兼容各类应用。
kenvix
2 天前
用 32B Q8 远不如 72B Q4 。参数量带来的提升远大于提升精度
oldfans
2 天前
Ollama 是 llama.cpp 的一个前端。

llama.cpp 支持多 GPU ,但不支持张量并行,单一并发同时只有一张卡在跑,多卡还有通信的开销,所以会比单卡还慢(前提是单卡的显存足够放模型)。

vLLM 支持在多卡上推理量化模型。

4-bit 的 Qwen2.5 72B 应该比未量化的 Qwen2.5 32B 要好。

Qwen2.5 可以试试用同系列的小参数量模型做推测解码( Speculative decoding ),应该会快不少。
DreamingCTW
1 天前
我 8 张 3080 的跑 qwen2.5:72b-instruct-q8_0 都没问题呀
DreamingCTW
1 天前
@DreamingCTW #16 我用的就是 ollama+open_webui 的方案
wantstark
1 天前
学习了几个月下来,ray server 或者 kuberay 蚂蚁字节都在用,万卡级别部署
woscaizi
1 天前
Les1ie
1 天前
目前多卡用的 ollama+open_webui 的方案(以前用的 lobe-chat ,现在替换成了 open_webui )。
使用的 ollama.com 提供的量化后的 qwen2.5 72b q4km ,针对常规的提示词工程的任务,对比询问了同样的问题,72b 相比于单卡就能带动的 qwen2.5 32b q4km 有明显的效果提升。不过多卡明显感觉有特别高的通信成本,远没有单卡响应速度快(显卡是几年前的,实际使用的 PCIe3 )。
之前常用 qwen2.5 32b q4km ,最近几天切换成了 qwen 的 qwq:32b q4km 模型,感觉推理能力有稍微加强。(以上体验都是主观评价,没跑过 benchmark ,仅作参考)
建议:
1. 试试 qwen2.5 72b q4km ,内存占用大概 59GB ,体验提升明显,可能比精度带来的提升来的更快更直接
2. 如果 8 张 4090 资源只能分出来一小部分使用,试试 qwq:32b
3. 你这 8 张都能用上的话,可以试试 deepseek-v2.5:236b
4. 如果本地化部署不是任务的必要条件,那么 chatgpt/claude 仍然是目前的最优解, 4o 免费的目前已经有自我反思能力,能够回答问题过程中发现错误打断自己重新回答,而这些我是在其他模型中没有体验到的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094501

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX