监控智算中心设备,包括 GPU 等

143 天前
 wxd21020

有一个千卡,甚至是万卡级的智算中心,我们想做个监控平台,来监控这个智算中心 GPU 、算力、电量等等一些参数,主要是想看每个卡及整个智算中心的使用情况以及物理卡是否被人掉包等情况,老哥们有啥点子没?

1120 次点击
所在节点    OpenAI
7 条回复
WorldDominator
143 天前
这种运维超级麻烦,机器一多光是光模块掉线就够头疼了,国内有能力运维万卡集群的估计是个位数公司
监控设备厂商有解决方案可以直接买的,这种卡都是焊接的也没法掉包吧。一定要自己搞 ipmi api 可以,npu 信息可以从类似 nvidia-smi 的输出里解析
julyclyde
143 天前
你可以问问 AI 应该怎么做啊
wxd21020
143 天前
@WorldDominator 我们主要就输作为投资方想监控设备及使用情况。就是想通过 api 进行调用监控。
@julyclyde 还真是忘了问 GPT 了
qaz999
143 天前
有预算吗,我们这有现成的商业平台。
wxd21020
143 天前
@qaz999 可以给领导提一下,看看后续是否要采购,能给介绍一下产品吗?
qaz999
143 天前
@wxd21020 来个微信?
wxd21020
143 天前
@qaz999 就是 V2 的 id

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1060763

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX