求教 4090 的稳定运行的硬件配置,可以跑的大模型配置?

2023-08-20 11:59:39 +08:00
 sjmcefc2

想求一个 4090 的配置单, 还有就是基于这个配置单,如何配置一个本地化运行的大模型呢? 感觉有点无从下手啊,需要学习哪些?目前的目标是机器装起来,本地化大模型配置起来,自己稳定的运行一下。 不知道会不会像黑苹果那样认硬件认系统啥的,求教了,感谢大家。

5228 次点击
所在节点    程序员
21 条回复
chesha1
2023-08-20 12:13:08 +08:00
不会认硬件系统,大模型是一个 OS 上的应用程序的任务,当然不会对硬件有要求
深度学习任务,内存最好的显存的两倍或以上,CPU 没有要求,其实想省钱就缩一点,也是能跑的
如果你想保留未来的拓展性,最好选服务器平台支持多个 pcie 通道,因为单张 4090 也只能跑 llama-7b 这种参数最少的大模型,再往上显存就不够了


如果你是想用单张 4090 ,随便买个 4090 的游戏整机的配置都没问题,这种方案 tb 上一搜全都是,对着抄就行了
如果想用多张 4090 的服务器/工作站,可以看下 https://www.autodl.com/machine/list
或者上 tb 看 GPU 服务器的方案,当然 dell 这种大型服务器厂商也有方案的,就是会很贵
jinsongzhao
2023-08-20 12:24:44 +08:00
Mate 最近开源的 7B 模型,不训练只开发测试最低 10GB 显存,双志强 48 核 CPU 。它之上还有 13B, 70B 模型,所以说没有上限,完全看跑什么模型,大家都在优化降低模型需求,比如 4bit 可以让显存降到 8GB, 转换个格式,换其他引擎跑,还能不依赖 GPU,纯 CPU 跑。以上还只是不训练。
jinsongzhao
2023-08-20 12:30:27 +08:00
@chesha1 原来老看到人提到的 8k 训练就里这里头 19w 的那个呀
sjmcefc2
2023-08-20 13:59:12 +08:00
@chesha1 感谢指点。就是对未来能够跑的模型不是很熟悉,现在在用 cpu 跑清华的模型,感觉就对话而言,清华模型好像并不太好,让他对比两个文件或者从文件里面计算一个生产成本,没办法计算出来。现在是想着分析年报或者成本收益调查,计算其中产品的成本信息。现在都不知道有啥好用的模型,还请大家指点
@jinsongzhao 我刚开始学习大模型,是不是不训练的话,模型就不懂行业黑话(术语)呢?现在的模型是否各有所长呢?大家都怎么选择大模型呢
lrigi
2023-08-20 14:05:51 +08:00
@sjmcefc2 你这种需求先去问问 gpt4 和 gpt3.5 ,gpt4 如果能搞定开源模型才有希望,gpt4 搞不定就别指望开源模型了。除非是有专门针对某一领域微调好的模型,比如微软的数学模型
ysc3839
2023-08-20 14:06:52 +08:00
sjmcefc2
2023-08-20 14:11:34 +08:00
@lrigi 注册了几个号,都没封了,也不知道啥原因。其实数学用的并不多,就是用一个小学除法而已。
threebr
2023-08-20 17:52:53 +08:00
24g 显存怎么跑大模型,别说训练了部署都做不到。b 站上有用 7950x CPU 跑性能达到 99%chatgpt 的一个模型,你可以搜一下。用 CPU 而不是 GPU 是因为个人电脑可以做到大内存,但做不到大显存。我电脑上就是 4090 ,只能用在绘图作曲这些地方。
threebr
2023-08-20 17:54:53 +08:00
@threebr 另外用 amd 的 cpu 而不是 intel 是因为 Intel 现在没有 avx512 指令集了。当然服务器 cpu 上的 avx512 指令集更好用
gamekiller0010
2023-08-20 18:13:59 +08:00
4090 的显存没办法跑大模型吧
airqj
2023-08-20 20:25:57 +08:00
@threebr
@gamekiller0010
能跑量化模型的显卡不是有很多吗
cs3230524
2023-08-20 20:49:41 +08:00
选 A100
chesha1
2023-08-20 20:52:54 +08:00
@sjmcefc2 具体哪个模型比较好我也不清楚,不过 llama2 是现在比较火的模型
你可以看一下 hugging face 这个网站,text-generation 这个任务下面,哪些 model 比较火

要是不训练,确实大概率不懂你的行业黑化,不过如果你的行业黑话比较短,模型支持的 token 又比较多,也可以试一下直接在 prompt 里说明白。如果背景知识太多还是微调吧
zion03
2023-08-20 23:35:12 +08:00
ChatGLM2-6B ,十几 G 显存就可运行。我刚组了 4090 的主机,离线大模型跑的挺快的。推理速度感觉比 GPT 3.5 快不少
zion03
2023-08-20 23:40:04 +08:00
把领域知识的整个文件(比如 PDF )导入到向量数据库,利用 langchain 查询可以在一定程度上达到 finetune 模型的效果。B 站上有相关的详细分享。
quake0day
2023-08-21 08:36:53 +08:00
@gamekiller0010 亲测 4090 可以跑 llma2 13b 的
sducxh
2023-08-21 09:55:01 +08:00
ChatGLM2-6B 我在 3080 ( 10G )上 8bit 量化跑,速度确实快,但试用了 qwen-7b 和 baichuan-13b ,我自己的感受是 ChatGLM2-6B 也就速度和资源上的优势了。
sducxh
2023-08-21 09:57:17 +08:00
@threebr 24g 怎么就不行呢,我一开始一张 3080 ,也就能跑跑 ChatGLM2-6B ,后来又加了一块,baichuan-13b 也能跑了,只能 4bit 量化~
ShadowPower
2023-08-21 13:07:20 +08:00
@sjmcefc2 这个需求可以考虑用 WizardMath-70B ,我试了很多复杂的小学数学/奥数题,都比 ChatGPT 3.5 好
sjmcefc2
2023-08-22 20:03:14 +08:00
@ShadowPower 还不完全是解题,主要从年报等资料里面找到计算成本相关的变量,比如营业成本 xx 元,生产量 xx 吨,
这样的数字,才能计算出来,是否 wizardmath-70b 也具备这样的提取数据能力呢?


@sducxh 这样两块显卡是怎么配置呢?

@zion03 能具体给一个链接吗?这个是不是还是利用的外部的计算能力?
@chesha1 行业黑话专业术语是否可以导入而不训练呢?比如化工领域、农业领域、会计领域的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/966795

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX