使用 llama3:70b 本地化部署, 100 人左右的并发,大概需要多少块 4090 才能满足?

249 天前
 leeum

有没有实操过本地化部署开源 llm 的老哥?这个需要大概多少的算力?

9735 次点击
所在节点    Local LLM
52 条回复
jwangkun
248 天前
目前我用的 Quadro RTX 8000 ,并发没测过,不知道怎么压测
BQsummer
248 天前
1. llama3 70b 需要 142G 显存,4090 是 24G 显存,不量化得 6 张卡,https://llm.extractum.io/list/?query=llama3 ,可以在这个网站查下大概的显存占用,8bit 量化也要 75G ,4bit 量化 40G ,4090 不合适。31L 的 llama3:70b 是“quantization
4-bit”的: https://ollama.com/library/llama3:70b
2. 显存不是重点,重点是推理速度,取决于模型、显卡、还有部署模型的服务,比如 vllm ,都会做推理优化,而且推理速度和并发不是成线性反比的,所以实际的推理速度真的只有在跑下来才知道
3. 主流生产环境部署还是 vllm 多一点,我有在 reddit 看到吐槽 ollama 并发下卡死的,虽然我也用 ollama 测试一些模型,用起来是真方便
snuglove
248 天前
到底是内存跑的 还是显存跑的啊 我现在用的内存跑的很好啊
robbaa
247 天前
@ispinfx ollama 目前是单线程模型。
ab 工具测试 10 并发 10 请求,耗时 312 秒, 没有并发可言
robbaa
247 天前
ab -c 10 -n 10 -p ./testchat.json -T "application/json" -H 'Content-Type: application/json' http://localhost:11434/api/chat

testchat.json 中内容
```
{
"model": "llama3:70b",
"stream": true,
"frequency_penalty": 0,
"presence_penalty": 0,
"temperature": 0.6,
"top_p": 1,
"messages": [
{
"content": "安排一个南京的 2 天的旅游攻略,用中文回答",
"role": "user"
}
]
}
```
imFu
247 天前
@robbaa 哥们有啥能够支持并发的推理框架推荐的吗?
leeum
247 天前
robbaa
246 天前
@leeum 测试版还是有问题,结果不理想。

70b
单次请求:17~20s
并行 4 ,4 个请求,4 个成功,平均 30s
并行 6 ,6 个请求,6 个成功,平均 33s
并行 8 ,8 个请求,8 个成功,平均 41s
并行 9 ,9 个请求,9 个成功,平均 130s (确实如此)
并行 10 ,10 个请求,10 个成功,平均 142s
并行 11 ,11 个请求,11 个成功,平均 150s

8b
并行 8 ,8 个请求,8 个成功,平均 14s
并行 9 ,9 个请求,6 个成功,平均 25s
并行 10 ,10 个请求,10 个成功,平均 32s
并行 11 ,11 个请求,11 个成功,平均 34s
并行 12 ,返回异常

测试多了,还会出现“话痨”现象。正常回复在 40k 左右,“话痨”状态在 380k 以上

======

@imFu 我初学状态
joetao123
230 天前
2 个 A6000 Ada 或者 4 张 4090 的图形工作站是否可以跑 qwen:72b 的推理?如果是微调的话,需要多少资源?哪位大神能给点建议。
wsbqdyhm
226 天前
@fnd 我用 m1 max 64g 部署了 llama3:70b ,感觉还可以,会比 chagtp3.5 稍慢,特别是第一次问问题的时候
g0147456g
189 天前
4090 估计是完全不行。4bit 量化下仍然需要 40+GB 的显存,而 4090 不支持 nvlink ,难以多卡并行
keakon
178 天前
双 4090 用 vllm 部署 qwen2:72b-int4 ,最低大概要 42GB 显存。占满 48GB 显存的情况下,32 并发下大概每秒 300 tokens 。
用 ollama 部署,大概要 40GB 显存。2 并发大概每秒 30 tokens ,再增加并发性能反而下降。
但是具体到单个请求,只有 15 tokens/s 的样子,大概是 gpt-4o 的 1/4 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1036641

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX