我发现 GPU 节点上 /dev/nvidiaX
后面的 X
表示的是 NVIDIA GPU 的 Minor Number ,但是我现在想在程序里得到 NVIDIA GPU 的 UUID 和 X 对应关系(在非 GPU 节点上远程去获取信息),该怎么做呢?除了远程执行 nvidia-smi --query | grep "GPU UUID\|Minor Number"
这种获取全部信息后再过滤还有别的好办法吗?我看nvidia-smi --query-gpu=xx,yy,zz
这种好像不支持查询 Minor Number
...
1
ysc3839 2021-11-25 11:12:58 +08:00
搜了下 nvidia-smi 是封装 NVML 的,你可以考虑直接调用 NVML https://stackoverflow.com/a/14907871/6911112
NVML 有 Python 的绑定 https://pypi.org/project/nvidia-ml-py/ |
2
fighterhit OP @ysc3839 谢谢大佬回复,这个方法也考虑过,但实际情况不是在 GPU 节点上执行,实际上是在 k8s 调度器的 pod 内(非 GPU 节点)想通过 exec 方式进入到 GPU 节点上的 GPU pod 内获取信息,这种方式感觉需要在那个容器装包,似乎有点点麻烦..
|
3
ysc3839 2021-11-25 12:15:39 +08:00
@fighterhit 装包指的是?如果指的是 NVML ,你装了 nvidia-smi 的话就肯定有呀。
|
4
fighterhit OP @ysc3839 就是需要在被执行的容器里装 nvml 相关的包
|
5
fighterhit OP @ysc3839 目的容器是 NVIDIA k8s-device-plugin ,这里面有 nvidia-smi ,但是发现没 python 。。
|
6
ysc3839 2021-11-25 14:57:02 +08:00
@fighterhit 不一定要装 Python 呀,NVML 是 C 语言的库,如果你连额外的 C 程序都不想装的话,那看看有没有别的能调用 C 接口的工具吧。
|
7
fighterhit OP @ysc3839 喔,我明白你的意思了,你是说 nvml 有的话,用 c 再写个程序调用这个库来实现吗?
|
8
ysc3839 2021-11-25 18:30:57 +08:00 via Android
@fighterhit 是的
|
9
xxb 2021-11-25 19:46:34 +08:00 via iPhone
我更想知道和物理插槽的对应关系
|
10
xxb 2021-11-25 20:08:46 +08:00 via iPhone
nvidia-smi -L 可能是楼主想要的
|
11
fighterhit OP @xxb 不不,nvidia-smi -L 前面那个仅仅是 pcie index ,和 minor number 不一样,主要是想要 /dev/nvidiaX 文件后面这个序号 X ,而这个 X 是 GPU minor number ,你可以看下 nvidia-smi --query 的输出
|