makictos

makictos

V2EX member #362179, joined on 2018-11-10 11:57:50 +08:00
Today's activity rank 25718
PRO
PRO member
makictos's recent replies
Apr 26
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
@coefu 多远不重要,但是对普通人来说,这是目前来钱最快的一条路之一。我也只是赚点钱的普通人。
Apr 26
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
@makictos https://docs.nvidia.com/dgx-basepod/deployment-guide-dgx-basepod/latest/introduction.html 首先把你的八台 DGX/HGX 上的 cx7 网卡全部连线到 ib 交换机上,之后把所有机器的网卡切到 ib 模式(如果存在 ES/QS/CS 卡片,需保证全部卡片必须为同一固件版本),然后打开 Subnet Manager ,如果你的机器没问题的话,这时候你应该就已经建立了一个简单的集群了(至少可以跑 nccl 了)
Apr 26
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
@mingtdlb 第一个问题,快速开展可以参考这篇文章
Apr 25
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
@coefu 其次,懂这些是相当有必要的,在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下,如果个人购买百卡组小规模集群进行学习实践,可以有效提高你进入大厂的可能性。在目前的组内需求中,我们仍缺乏有经验的百卡/千卡工程师。
Apr 25
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
@coefu 无意冒犯,我目前就职于你所说的大厂,也确实是 v2 少数能完整直接控制超大集群的工程师。回复此贴只是做技术解答。
Apr 22
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
@mingtdlb 你想看哪些技术细节?目前想要做多机组网,对于小规模客户来说,其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网,也无法实现你把模型拖进去就能用,程序并不是原生就能做 nvl 多卡拆分的。
Apr 22
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
@coefu 多机器组全局 nvl 不是为了推理的,如果你需要强推理,有很多其他高性价比选择,比如说你说的 mi325x ,或者 intel 的 gaudi3 。全局 nvl 的核心主要在于多集群的训练,这个是 nv 独有的优势。
Apr 21
Replied to a topic by mingtdlb Local LLM 多台 GPU 之间怎么组网互联?
每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联
先问是不是,再问为什么。
问题不成立,48g 是有的,你把单颗 2g 的 gddr7 换成单颗 3g 的 gddr7 是可以直接引导的,但是因为供货量和成本问题,目前没有办法直接对外卖。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2744 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 15:51 · PVG 23:51 · LAX 08:51 · JFK 11:51
♥ Do have faith in what you're doing.