V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dododada
V2EX  ›  程序员

yoloV8 推理 cpu 占用问题

  •  
  •   dododada · 233 天前 · 1510 次点击
    这是一个创建于 233 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前文讲过采购服务器,有个兄弟讲钱花在刀把上了。

    换了 cpu ,视频分析推理整体的性能提升了三分之一。

    但是有个很大的问题,和以前一样的问题,gpu 跑不满,最高 40%; gpu 跑的时候 cpu 倒是占满了。

    做了训练测试,用来训练数据 gpu 倒是能跑满。

    算法的同事讲 yolov8 检测就是吃 cpu ,因为会有频繁的 gpu/cpu 切换。

    找了一些方法,都被算法否掉了。

    我不是做算法的,请教一下各位兄弟,yolov8 真的会吃 cpu 么?

    如果吃/不吃,有啥办法提升 gpu 的占用么?

    13 条回复    2024-05-09 11:53:21 +08:00
    mjawp
        1
    mjawp  
       233 天前
    检测的预处理和后处理部分应该是 cpu 做的,这一部分想办法独立出来做异步试试
    sugarkeek
        2
    sugarkeek  
       233 天前
    我用 yolo 的 trt 部署的时候是在 cpu 吃满的情况下,逐渐增加 gpu 的占用
    ZnductR0MjHvjRQ3
        3
    ZnductR0MjHvjRQ3  
       233 天前
    可以贴一下你配置的那个帖吗 最近也在准备采购
    dododada
        4
    dododada  
    OP
       233 天前
    @mjawp 其实我提了个想法,就是 cpu 的归 cpu ,gpu 的归 gpu ,中间通过内存或者其他方式共享结果数据。就是把消息队列那一套搬过来,但是算法说这样搞要从头开始重新 C++写一遍,代价太高了。

    这么一讲,我就想要不要拆掉一块 gpu ,插到我们的训练服务器上去
    ktyang
        5
    ktyang  
       233 天前
    推理和训练的算力需求是不一样的 不知道你整个 pipeline 是怎么设计的 不太好给具体的建议
    ktyang
        6
    ktyang  
       233 天前
    @dododada 显存和内存在物理上是两个东西。。。
    dododada
        7
    dododada  
    OP
       233 天前
    @Motorola3
    2 * Intel Xeon 4316(20C,150W,2.3GHz)

    8 * 32GB DDR4-3200MHz RDIMM

    1 * SSD_1.92TSATA6Gpbs.2.5in

    2 * M6_3.5.7.2K SATA 4TB_HDD

    2 * NVDIA RTX 4090 24GB

    2 * 2700W 铂金电源模块

    1 * 标配导轨,满配散热风扇

    目前看起来,这个 U 还是配低了,8 系的估计会更好一些
    ZnductR0MjHvjRQ3
        8
    ZnductR0MjHvjRQ3  
       233 天前
    @dododada 好的 多谢
    dododada
        9
    dododada  
    OP
       233 天前
    @Motorola3 这个电源贵,2000W 的应该就够了; 2 光口和 4 电口的价格差别不太大,主要看网络需求; raid 卡有的只支持 0/1 ,标卡支持 0/1/5/6/10/50/60 ,也是看需求,差价比较大;
    mMartin
        10
    mMartin  
       232 天前
    我们把 nms 之类的全放到显卡来处理了 cpu 几乎不占用
    mMartin
        11
    mMartin  
       232 天前
    全用 cuda 写的推理
    tap91624
        12
    tap91624  
       232 天前
    抓一下看看是不是算子都执行在 cpu 上了
    qieqie
        13
    qieqie  
       232 天前
    推理吃不满就是 GPU 并行度太低,延迟允许的话,把 batch 加上去看看
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2742 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 13:06 · PVG 21:06 · LAX 05:06 · JFK 08:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.