搞 AI 的话同样价格是 3060 12Gx2 好还是 4060Ti 16G 好?

2023-09-18 16:32:33 +08:00
 1014982466
研究生组里面想搞自然语言处理,大语言模型(仅推理不训练)等等。
现在 1 万每台的预算,要 N 卡还是大显存显卡 只能是 3060 12Gx2 (¥ 3400 )或者 4060Ti 16G (¥ 3500 )
因为要正规渠道且开发票所以 2080Ti 22G 或者 P40 那些是肯定不行。
所以就想问下搞过 AI 的,两张 3060G 看似 22G 显存性价比很高,有没有什么坑,比如双卡兼容性或者不支持双卡等等
4060Ti 的话最省事,而且单卡不挑机箱电源,但是就怕 16G 显存不够用

请大佬们解答
2208 次点击
所在节点    硬件
15 条回复
karatsuba
2023-09-18 16:33:57 +08:00
lkwfive
2023-09-18 16:36:40 +08:00
显卡容量优先于算力,去官网确认下 3060 能不能组网,能的话就选这个
Takizawa
2023-09-18 16:37:22 +08:00
还不如内存加大一点,用共享显存
wipbssl
2023-09-18 16:39:56 +08:00
说实话不如租服务器,硬要选的话可以试试 3060*2 ,用 ddp 训练应该比 4060ti 强
daweii
2023-09-18 16:43:34 +08:00
colab 买算力
1014982466
2023-09-18 16:52:24 +08:00
@karatsuba #1 @wipbssl #4 有没有推荐的平台?适合学生的
qqjt
2023-09-18 16:58:49 +08:00
我的话会选 4060ti ,双卡的话可能的坑更多。这俩个方案其实都只能学习性质,正儿八经训练得加钱。
JayZXu
2023-09-18 17:16:19 +08:00
大显存 比 多卡兼容性更好,支持项目更多

不过这两个卡 CUDA 性能都不咋地,也就入门玩玩的水平

预算不高,同样建议 colab
wipbssl
2023-09-18 17:18:47 +08:00
@1014982466 矩池云、featurize 、autodl 等等挺多的。
wipbssl
2023-09-18 17:20:01 +08:00
其实可以看看能不能和华为百度之类的合作,他们都有自己的深度学习框架,目前还在推广,给机器挺大方的
seres
2023-09-18 17:20:42 +08:00
2080Ti 魔改 22G
matchalatte
2023-09-18 17:37:58 +08:00
双卡推理目前有两种方案:
- 流水线并行:把层划分到不同 GPU 上,比方说切成前半后半,每次计算先用 gpu1 ,再用 gpu2 。好处是实现简单,缺点是推理延迟会变得很大。参考 ChatGLM 的一个多卡部署实现: https://github.com/THUDM/ChatGLM2-6B/blob/main/utils.py
- 张量并行:把每个参数切片到所有 gpu 上,每次乘法完做一个 all reduce 。这个手写修改源代码很困难。比较简单的方法是套用 deepspeed zero3 ,accelerate 库也有这个功能。参考: https://huggingface.co/docs/accelerate/usage_guides/deepspeed

如果用上 deepspeed 的话,还有个单卡多卡都可以用的方案
- deepspeed 有 cpu_offload 和 nvme_offload ,可以自动把没用到的权重下放到内存/磁盘里,再把要用的挪到显存里,这样理论上多大的模型都能跑,但是对内存和磁盘要求比较高,而且推理很慢。

需要注意的几个点:
- 双卡如果是 hf 模型,适配起来比较简单,调用 accelerate 库就可以了。但一些小众框架就很麻烦。多卡推理具体方法就是前面提到的两个。
- 3060 没有 nvlink ,双卡间通信是走内存,会很慢,而且 worker 开的多也会更吃内存。一万的预算不知道配了多少内存,跑大模型对内存的要求非常高,这个需要注意。
- 双卡需要注意主板的第二个 pcie 插槽能否跑到满速( x16 ),如果 x8 或者 x4 会降低通信速度,本身多卡就挺吃通信的。还有些主板第二个 pcie 还会和 nvme 硬盘槽位冲突,这些都得确认一下。
- 如果你们组不止一个人用,双卡会方便一些,在必要时可以分给两个人分别干不同的事情。
- 单张 4060ti 放的下模型的情况下,推理会比两张 3060 快。3060 虽然有 12Gx2 ,但分布在不同的卡上,计算需要来回通信,在推理时通信开销往往是比计算大很多的。

不过就像前面几层说的,仅推理 colab 就比较够用。自己组服务器还有维护、配置的一些成本,包括像内存要求这些问题。建议再三考虑。
jhdxr
2023-09-18 17:55:34 +08:00
没搞过上来就像挑战双卡难度有点大。。。除非就是跑跑别人现成已经调好的
OysterQAQ
2023-09-18 17:58:15 +08:00
得加钱 不然就💰全花显卡上 其他另外配 只报销显卡
talkischeap567
2023-09-19 02:05:48 +08:00
4090*n

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/974897

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX