使用 llama3:70b 本地化部署, 100 人左右的并发,大概需要多少块 4090 才能满足?

2024-04-29 10:25:21 +08:00
leeum  leeum

有没有实操过本地化部署开源 llm 的老哥?这个需要大概多少的算力?

11309 次点击
所在节点   Local LLM  Local LLM
52 条回复
timeance
timeance
2024-04-29 10:26:26 +08:00
你先测一下大概每秒有多少 token ,然后换算一下就大概知道了
hi2hi
hi2hi
2024-04-29 10:26:33 +08:00
这,为什么还想着用 4090 呢?找论坛看看,用专业卡跑
levn
levn
2024-04-29 10:36:24 +08:00
云 gpu 服务器租一天测试一下不就知道了
kenvix
kenvix
2024-04-29 11:45:44 +08:00
根据我用 VLLM 部署的结论,4090 的显存不够用
herozzm
herozzm
2024-04-29 11:46:46 +08:00
最少 2 块 4090 能基本跑起来,如果是 100 并发,就不太清楚了
murmur
murmur
2024-04-29 11:47:02 +08:00
如果没有精挑的必要,建议一个公司租几个 gpt4 或者文心一言,使用成本和部署难度比自己 llama 简单太多
herozzm
herozzm
2024-04-29 11:49:11 +08:00
@murmur 本地模型远比 api 省钱
iOCZS
iOCZS
2024-04-29 11:51:49 +08:00
100 并发。。。人很多啊
t41372
t41372
2024-04-29 12:09:46 +08:00
有那种 host 像 llama3 70b 这种开源模型的 serverless api 接口,比 open AI 的要便宜很多,速度也会比自己部署一台要快很多。我知道 groq 上面 llama3 70b 的价格是差不多每一百万个 token 0.5 刀左右的样子,不知道会不会比自部署便宜。
我记得像是 ollama 这种好象是还不支持并发的,所以很多人同时用体验可能不会太好。
echoless
echoless
2024-04-29 12:25:49 +08:00
ollama 下个版本才支持并发
lovestudykid
lovestudykid
2024-04-29 12:31:11 +08:00
自建的话要保证并发,可能有很长闲置时间
tap91624
tap91624
2024-04-29 13:12:44 +08:00
4090 没 nvlink 多卡会比单卡慢的
R4rvZ6agNVWr56V0
R4rvZ6agNVWr56V0
2024-04-29 13:15:37 +08:00
4090 跑 70B 的模型非常吃力,直接上 A100 吧
msn1983aa
msn1983aa
2024-04-29 13:22:43 +08:00
挑战老黄的刀法? a100 上起才行
whileFalse
whileFalse
2024-04-29 13:35:40 +08:00
确认是有 100 并发,还是你们有 100 个要使用的人?
gaobh
gaobh
2024-04-29 13:42:31 +08:00
你去换算,1 秒多少人用,大概要出多少 token ,看一下
winglight2016
winglight2016
2024-04-29 13:43:07 +08:00
30G 的 llm ,显存至少 40g 吧。lz 说清楚到底是 100 个用户,还是 100 个并发,如果是后者,为什么不用 gpt-4 ?毕竟,这并发量私有加自建投资太大,lz 提到 4090 ,大概率没什么 AI 经验,还是上云靠谱。
lizhisty
lizhisty
2024-04-29 13:45:28 +08:00
@echoless 下个版本啥时候发布啊
lizhisty
lizhisty
2024-04-29 13:46:18 +08:00
@lovestudykid 闲置时间是什么意思
lizhisty
lizhisty
2024-04-29 13:47:32 +08:00
@winglight2016 大哥,100 个并发是不是就吃力了,1 张 A100 能支持 70b 的一秒 10w token 吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1036641

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX