8 卡 H100 部署 DeepSeekR1 求助

41 天前
zhyim  zhyim
公司要在本地部署 ds ,搞了一台服务器,让我部署一下,内存 DDR5 2T ,显存 640G ,我现在 llamacpp 部署的 q4 量化版,并发设置了 4 ,但是 4 个人同时用的时候输出就会很慢。求推荐个可以支持 10 个并发的推理框架。vllm 我试了说是不支持 deepseek2 ,我是下载的 gguf 文件
1182 次点击
所在节点   Local LLM  Local LLM
15 条回复
dayeye2006199
dayeye2006199
41 天前
sglang
raycool
raycool
41 天前
是 404G 大小的模型文件吗?
这个 8 卡可以部署成功?
zhyim
zhyim
41 天前
@raycool 是的,用 llamacpp 和 ollama 都能成功,就是并发不行
zhyim
zhyim
41 天前
@dayeye2006199 也是不支持 deepseek2 ,我下载的别人的量化模型,单 gguf
JackyTsang
JackyTsang
39 天前
SGLang 部署。
haimianbihdata
haimianbihdata
26 天前
@JackyTsang 这个支持并发怎样
weiming
weiming
25 天前
vllm + awq 量化
zhyim
zhyim
25 天前
@weiming awq 推理速度特别慢,只有 6t/s
weiming
weiming
25 天前
@zhyim 不应该啊,我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ
zhyim
zhyim
25 天前
@weiming 能支持多少并发啊,我用的 GPUStack 里面那个 vllm
volvo007
volvo007
25 天前
请问 op ,8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗?那不是只能通过 pcie 通信,速度上不去吧。而使用 nvlink 的话,还不如直接买 HGX 节点?因为最近我们这也想部署,但是一开始是双卡,后面会慢慢加,所以来请教一下
zhyim
zhyim
25 天前
@volvo007 我不知道啊,我们只负责部署,硬件这块 IT 搞的,是 nvlink 的
volvo007
volvo007
25 天前
@zhyim 还是感谢哈,知道是 nvlink 也是很好的线索了
weiming
weiming
25 天前
@zhyim vllm 0.7.2 awq
Parallel request Token per second ( Total ) Token per second(per request)
1 30 30
10 81 10
30 144 6.2
50 180 5
weiming
weiming
25 天前
4 并发 17t/s 。a800 没有原生 fp8 支持,算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的,拍脑袋至少还能再快个 30%。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1111710

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX