V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fighterhit
V2EX  ›  NVIDIA

怎么得到 NVIDIA GPU UUID 和 NVIDIA GPU Minor Number 的对应关系呢?

  •  
  •   fighterhit · 2021-11-25 11:01:09 +08:00 · 2366 次点击
    这是一个创建于 875 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我发现 GPU 节点上 /dev/nvidiaX 后面的 X 表示的是 NVIDIA GPU 的 Minor Number ,但是我现在想在程序里得到 NVIDIA GPU 的 UUID 和 X 对应关系(在非 GPU 节点上远程去获取信息),该怎么做呢?除了远程执行 nvidia-smi --query | grep "GPU UUID\|Minor Number" 这种获取全部信息后再过滤还有别的好办法吗?我看nvidia-smi --query-gpu=xx,yy,zz 这种好像不支持查询 Minor Number...

    11 条回复    2021-11-25 21:52:48 +08:00
    ysc3839
        1
    ysc3839  
       2021-11-25 11:12:58 +08:00
    搜了下 nvidia-smi 是封装 NVML 的,你可以考虑直接调用 NVML https://stackoverflow.com/a/14907871/6911112
    NVML 有 Python 的绑定 https://pypi.org/project/nvidia-ml-py/
    fighterhit
        2
    fighterhit  
    OP
       2021-11-25 11:29:20 +08:00
    @ysc3839 谢谢大佬回复,这个方法也考虑过,但实际情况不是在 GPU 节点上执行,实际上是在 k8s 调度器的 pod 内(非 GPU 节点)想通过 exec 方式进入到 GPU 节点上的 GPU pod 内获取信息,这种方式感觉需要在那个容器装包,似乎有点点麻烦..
    ysc3839
        3
    ysc3839  
       2021-11-25 12:15:39 +08:00
    @fighterhit 装包指的是?如果指的是 NVML ,你装了 nvidia-smi 的话就肯定有呀。
    fighterhit
        4
    fighterhit  
    OP
       2021-11-25 14:11:54 +08:00
    @ysc3839 就是需要在被执行的容器里装 nvml 相关的包
    fighterhit
        5
    fighterhit  
    OP
       2021-11-25 14:14:45 +08:00
    @ysc3839 目的容器是 NVIDIA k8s-device-plugin ,这里面有 nvidia-smi ,但是发现没 python 。。
    ysc3839
        6
    ysc3839  
       2021-11-25 14:57:02 +08:00
    @fighterhit 不一定要装 Python 呀,NVML 是 C 语言的库,如果你连额外的 C 程序都不想装的话,那看看有没有别的能调用 C 接口的工具吧。
    fighterhit
        7
    fighterhit  
    OP
       2021-11-25 16:25:17 +08:00
    @ysc3839 喔,我明白你的意思了,你是说 nvml 有的话,用 c 再写个程序调用这个库来实现吗?
    ysc3839
        8
    ysc3839  
       2021-11-25 18:30:57 +08:00 via Android
    @fighterhit 是的
    xxb
        9
    xxb  
       2021-11-25 19:46:34 +08:00 via iPhone
    我更想知道和物理插槽的对应关系
    xxb
        10
    xxb  
       2021-11-25 20:08:46 +08:00 via iPhone
    nvidia-smi -L 可能是楼主想要的
    fighterhit
        11
    fighterhit  
    OP
       2021-11-25 21:52:48 +08:00
    @xxb 不不,nvidia-smi -L 前面那个仅仅是 pcie index ,和 minor number 不一样,主要是想要 /dev/nvidiaX 文件后面这个序号 X ,而这个 X 是 GPU minor number ,你可以看下 nvidia-smi --query 的输出
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5736 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 03:02 · PVG 11:02 · LAX 20:02 · JFK 23:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.