V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cinlen
V2EX  ›  NVIDIA

NVIDIA 消费级显卡有没有免费靠谱的多个容器共享的方案?

  •  
  •   cinlen · 50 天前 · 2190 次点击
    这是一个创建于 50 天前的主题,其中的信息可能已经有所发展或是发生改变。

    假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod ,但目前一个 Pod 独占整数张 4090.

    想要的效果是:2 个(or 多个) Pod 可以同时共享一张显卡。

    看了一下 NVIDIA 官方的方案:

    1. MIG(把物理显卡划分成 7 个 GPU 实例), 缺点是 : 只能划分 7 个实例,且只有例如 blackwell 等架构显卡才能用。
    2. vGPU(有分时方案和 MIG 方案),缺点是不免费,且一样挑显卡。

    需求是:

    • 支持同一张显卡在同一时间被多个容器使用
    • 在消费级显卡上可用
    • 免费
    • 有在比较大规模集群上稳定跑过

    请问站内有无大佬有相关的实践/思路/方案?

    11 条回复    2024-07-19 23:08:25 +08:00
    adsryen
        1
    adsryen  
       50 天前
    蹲答案就是学习 嘻嘻
    yinwai
        2
    yinwai  
       50 天前 via Android
    这个需求直接 nvidia-docker 不就可以了,可指定每个容器分配哪几张,单张 gpu 可映射到多个容器,不过这样做没法像 mig 一样对每个容器调节 gpu 性能。
    https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
    cinlen
        3
    cinlen  
    OP
       50 天前
    @yinwai 漏了一个需求,要求这个 Pod 只能使用这张显卡的有限能力(例如 30%,不能超过上限)。
    piero66
        4
    piero66  
       50 天前 via Android
    没有可能,游戏卡开 vgpu 止步于 20 系
    piero66
        5
    piero66  
       50 天前 via Android
    建议用 nvidia-docker 竞技场,资源先到先得
    choury
        6
    choury  
       50 天前 via Android
    要是能让你这样搞,那些计算卡卖给谁
    yinwai
        7
    yinwai  
       50 天前 via Android   ❤️ 2
    @cinlen 那可以试试下面这个项目,可以 hack 消费级显卡开 vgpu
    https://github.com/DualCoder/vgpu_unlock
    skrbug
        8
    skrbug  
       50 天前
    @piero66 这个代表的意思是? 先运行的容器将一直占着这张显卡,哪怕没有进程调用 GPU

    nvidia-docker 竞技场是说的什么? 大佬科普下
    carmark
        9
    carmark  
       50 天前   ❤️ 1
    具体的方案可以参考这里: https://zhuanlan.zhihu.com/p/398369404

    参考方案就是阿里的 cGPU ,腾讯的 qGPU 。

    主要实现的思路就是 ioctl 层面的拦截,干预调度和显存管理。
    piero66
        10
    piero66  
       50 天前
    @skrbug 就是字面意思,资源先到先得,游戏卡基本做不了资源切割
    longredzzz
        11
    longredzzz  
       50 天前   ❤️ 1
    https://github.com/Project-HAMi/HAMi
    推荐这个项目,支持显存切分,算力切分,虚拟显存。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2303 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:09 · PVG 08:09 · LAX 17:09 · JFK 20:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.