占用 GPU 的服务如何解决并发?

2020-05-31 19:58:41 +08:00
 xiaoFine
比如某个服务需要用 GPU 资源(而且不是 JAVA 写的,是 cpp 或者 Python ),是不是需要用跨语言的 MQ 来实现削峰呢(例如 rabbitMQ )
4062 次点击
所在节点    程序员
23 条回复
xiaoFine
2020-06-01 09:41:39 +08:00
@helloworld000 感谢(看来还有很多路要走
kennylam777
2020-06-01 14:36:45 +08:00
如果你的 GPU 只是一種保證獨佔的計算資源,在 k8s 已經輕鬆解決。
xiaoFine
2022-03-16 22:36:46 +08:00
回头自问自答下。
这个要看各家的 serving 框架,目前 triton 和 torchserver 都能做到 dynamic batching 之类的功能,但本质上每次推理还是显卡独占;如果是为了省 GPU ,另一个思路是 GPU 虚拟化,暂时没实践

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/677256

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX