8x4090 离线部署 Qwen2.5 求助

50 天前
 fid

设备配置

需求

方案

有没有一种好的方式快速部署

2727 次点击
所在节点    Local LLM
40 条回复
qiniu2025
50 天前
拿个 32B 开源想跟现在行业龙头 gpt 4o 比,你要给用户提供什么服务? 这种聊天机器人满大街都是
fid
50 天前
@qiniu2025 #1 自用,离线环境部署只能选 32B
Leon6868
50 天前
8x4090 跑 ollama ,不如借给我用()(感兴趣可以联系 cXRiYm9zajVzQG1vem1haWwuY29t ,我可以帮你配置环境)

我个人的推荐是 lmdeploy + Qwen2.5 72B awq int8 ,响应速度很快,支持多卡,在 4xV100 上实跑 72B gptq int4 比 vllm 好用
mmjy
50 天前
vllm 文档是有量化实验特性支持的,可以试试好不好用: https://docs.vllm.ai/en/latest/quantization/auto_awq.html
GPLer
50 天前
8x24GB 为什么不上 72B ,是要考虑多用户使用的情况吗。
Livid
50 天前
fid
50 天前
@Leon6868 #3 离线环境无法远程:)
感谢提供 LMdeploy (┌・ω・)┌✧
fid
50 天前
@mmjy #4 好的,好像确实可以,就是配置麻烦,我对比一下
fid
50 天前
@GPLer #5 用户数在 0-10 左右,不过确实可以上 72B ,我考虑下量化(服务器可能被用于跑其他深度学习,不好说)
fid
50 天前
@Livid #6 等多来几台服务器试试集群(),目前环境较为封闭,可用设备只有一台 8x4090
Azure99
50 天前
lmdeploy≈sglang>vllm ,个人偏好是这样
Fanhz
50 天前
可以试下 sglang
mythabc
50 天前
1. 为什么单张可用 60%? 把其他任务都集中到 4 张显卡上,剩余 4 张用于跑 72b-awq 。多卡不建议超过 4 张,因为通信成本。
2. vllm 支持量化模型的。生产上用的最多的就是 vllm ,然后是 sglang (但是个人体感 sglang 比 vllm 稳定一些,因为版本都在不断迭代,所以仅是时效性的使用感受)。ollama 基于 llama.cpp ,这个项目最初就是用于在资源有限环境把模型 offload 到内存里跑起来的,一般就是个人玩具使用。
3. 喜欢一键的话,可以试一下 xinference ,有 docker 镜像,挺好用。
4. web 方案其实是各种 web client + openai style api ,各个推理引擎以 openai style api 将接口提供出来,兼容各类应用。
kenvix
50 天前
用 32B Q8 远不如 72B Q4 。参数量带来的提升远大于提升精度
oldfans
50 天前
Ollama 是 llama.cpp 的一个前端。

llama.cpp 支持多 GPU ,但不支持张量并行,单一并发同时只有一张卡在跑,多卡还有通信的开销,所以会比单卡还慢(前提是单卡的显存足够放模型)。

vLLM 支持在多卡上推理量化模型。

4-bit 的 Qwen2.5 72B 应该比未量化的 Qwen2.5 32B 要好。

Qwen2.5 可以试试用同系列的小参数量模型做推测解码( Speculative decoding ),应该会快不少。
DreamingCTW
49 天前
我 8 张 3080 的跑 qwen2.5:72b-instruct-q8_0 都没问题呀
DreamingCTW
49 天前
@DreamingCTW #16 我用的就是 ollama+open_webui 的方案
wantstark
49 天前
学习了几个月下来,ray server 或者 kuberay 蚂蚁字节都在用,万卡级别部署
woscaizi
49 天前
Les1ie
49 天前
目前多卡用的 ollama+open_webui 的方案(以前用的 lobe-chat ,现在替换成了 open_webui )。
使用的 ollama.com 提供的量化后的 qwen2.5 72b q4km ,针对常规的提示词工程的任务,对比询问了同样的问题,72b 相比于单卡就能带动的 qwen2.5 32b q4km 有明显的效果提升。不过多卡明显感觉有特别高的通信成本,远没有单卡响应速度快(显卡是几年前的,实际使用的 PCIe3 )。
之前常用 qwen2.5 32b q4km ,最近几天切换成了 qwen 的 qwq:32b q4km 模型,感觉推理能力有稍微加强。(以上体验都是主观评价,没跑过 benchmark ,仅作参考)
建议:
1. 试试 qwen2.5 72b q4km ,内存占用大概 59GB ,体验提升明显,可能比精度带来的提升来的更快更直接
2. 如果 8 张 4090 资源只能分出来一小部分使用,试试 qwq:32b
3. 你这 8 张都能用上的话,可以试试 deepseek-v2.5:236b
4. 如果本地化部署不是任务的必要条件,那么 chatgpt/claude 仍然是目前的最优解, 4o 免费的目前已经有自我反思能力,能够回答问题过程中发现错误打断自己重新回答,而这些我是在其他模型中没有体验到的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094501

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX