智算中心 GPU 监控

152 天前
 wxd21020
老哥们,如何监控智算中心的显卡使用情况呀,想搞个平台监控智算中心的各种数据。
1240 次点击
所在节点    问与答
9 条回复
wxd21020
152 天前
没人么
ellipsecheung
152 天前
多大规模的,什么显卡,要监控哪些数据
gesse
152 天前
nvidia-smi
wxd21020
152 天前
@ellipsecheung 千卡级 A100 起步
mgrddsj
152 天前
用过某高校的 HPC ,也是好多的 GPU 服务器,是用 Grafana 搭的资源占用监控。
wxd21020
152 天前
@mgrddsj 展开说说,grafana 就是个展示 web 吧,数据是怎么抽取的,拿普罗米修斯吗
mgrddsj
151 天前
@wxd21020 #6 具体怎么实现的不太清楚,我只是用户。网上估计有相关教程?
ellipsecheung
150 天前
@wxd21020 加个 wx 聊一下?
Mi1kTea
149 天前
https://github.com/utkuozdemir/nvidia_gpu_exporter?tab=readme-ov-file
nvidia exporter 获取数据+Prometheus 整合数据+grafana 展示

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1060484

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX