8 卡 H100 部署 DeepSeekR1 求助

41 天前

zhyim

公司要在本地部署 ds ，搞了一台服务器，让我部署一下，内存 DDR5 2T ，显存 640G ，我现在 llamacpp 部署的 q4 量化版，并发设置了 4 ，但是 4 个人同时用的时候输出就会很慢。求推荐个可以支持 10 个并发的推理框架。vllm 我试了说是不支持 deepseek2 ，我是下载的 gguf 文件

1182 次点击

所在节点

Local LLM

15 条回复

dayeye2006199

41 天前

sglang

raycool

41 天前

是 404G 大小的模型文件吗？
这个 8 卡可以部署成功？

zhyim

41 天前

@raycool 是的，用 llamacpp 和 ollama 都能成功，就是并发不行

zhyim

41 天前

@dayeye2006199 也是不支持 deepseek2 ，我下载的别人的量化模型，单 gguf

JackyTsang

39 天前

SGLang 部署。

haimianbihdata

26 天前

@JackyTsang 这个支持并发怎样

weiming

25 天前

vllm + awq 量化

zhyim

25 天前

@weiming awq 推理速度特别慢，只有 6t/s

weiming

25 天前

@zhyim 不应该啊，我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ

zhyim

25 天前

@weiming 能支持多少并发啊，我用的 GPUStack 里面那个 vllm

volvo007

25 天前

请问 op ，8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗？那不是只能通过 pcie 通信，速度上不去吧。而使用 nvlink 的话，还不如直接买 HGX 节点？因为最近我们这也想部署，但是一开始是双卡，后面会慢慢加，所以来请教一下

zhyim

25 天前

@volvo007 我不知道啊，我们只负责部署，硬件这块 IT 搞的，是 nvlink 的

volvo007

25 天前

@zhyim 还是感谢哈，知道是 nvlink 也是很好的线索了

weiming

25 天前

@zhyim vllm 0.7.2 awq
Parallel request Token per second （ Total ） Token per second(per request)
1 30 30
10 81 10
30 144 6.2
50 180 5

weiming

25 天前

4 并发 17t/s 。a800 没有原生 fp8 支持，算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的，拍脑袋至少还能再快个 30%。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1111710

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX