yoloV8 推理 cpu 占用问题

233 天前
 dododada

前文讲过采购服务器,有个兄弟讲钱花在刀把上了。

换了 cpu ,视频分析推理整体的性能提升了三分之一。

但是有个很大的问题,和以前一样的问题,gpu 跑不满,最高 40%; gpu 跑的时候 cpu 倒是占满了。

做了训练测试,用来训练数据 gpu 倒是能跑满。

算法的同事讲 yolov8 检测就是吃 cpu ,因为会有频繁的 gpu/cpu 切换。

找了一些方法,都被算法否掉了。

我不是做算法的,请教一下各位兄弟,yolov8 真的会吃 cpu 么?

如果吃/不吃,有啥办法提升 gpu 的占用么?

1512 次点击
所在节点    程序员
13 条回复
mjawp
233 天前
检测的预处理和后处理部分应该是 cpu 做的,这一部分想办法独立出来做异步试试
sugarkeek
233 天前
我用 yolo 的 trt 部署的时候是在 cpu 吃满的情况下,逐渐增加 gpu 的占用
ZnductR0MjHvjRQ3
233 天前
可以贴一下你配置的那个帖吗 最近也在准备采购
dododada
233 天前
@mjawp 其实我提了个想法,就是 cpu 的归 cpu ,gpu 的归 gpu ,中间通过内存或者其他方式共享结果数据。就是把消息队列那一套搬过来,但是算法说这样搞要从头开始重新 C++写一遍,代价太高了。

这么一讲,我就想要不要拆掉一块 gpu ,插到我们的训练服务器上去
ktyang
233 天前
推理和训练的算力需求是不一样的 不知道你整个 pipeline 是怎么设计的 不太好给具体的建议
ktyang
233 天前
@dododada 显存和内存在物理上是两个东西。。。
dododada
233 天前
@Motorola3
2 * Intel Xeon 4316(20C,150W,2.3GHz)

8 * 32GB DDR4-3200MHz RDIMM

1 * SSD_1.92TSATA6Gpbs.2.5in

2 * M6_3.5.7.2K SATA 4TB_HDD

2 * NVDIA RTX 4090 24GB

2 * 2700W 铂金电源模块

1 * 标配导轨,满配散热风扇

目前看起来,这个 U 还是配低了,8 系的估计会更好一些
ZnductR0MjHvjRQ3
233 天前
@dododada 好的 多谢
dododada
233 天前
@Motorola3 这个电源贵,2000W 的应该就够了; 2 光口和 4 电口的价格差别不太大,主要看网络需求; raid 卡有的只支持 0/1 ,标卡支持 0/1/5/6/10/50/60 ,也是看需求,差价比较大;
mMartin
233 天前
我们把 nms 之类的全放到显卡来处理了 cpu 几乎不占用
mMartin
233 天前
全用 cuda 写的推理
tap91624
233 天前
抓一下看看是不是算子都执行在 cpu 上了
qieqie
233 天前
推理吃不满就是 GPU 并行度太低,延迟允许的话,把 batch 加上去看看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1038826

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX