关于超高并发模型部署方案的选择

最近要部署一个 yolo 模型服务，这个服务需要保证上万的并发同时低延时返回模型的预测结果，我目前测试了以下方案。 1.最初尝试购买 GPU 云服务器，模型转化为 onnx,用 bentoml 这样开源框架打包镜像部署，但是发现并发高的时候就会阻塞，很多请求都等待了半分钟以上的时间才返回结果。目前我猜测是 GPU 达到了最高的并发处理数。

后来我又采用 triton 服务把模型上传到 oss 上，自己再写一个 grpc 的服务进行图片结果的预处理給 k8s 集群调用获取最终结果。这样只需要我只需要动态的增加 triton 的节点就可以保证高并发的要求。但是 k8s 进行动态扩容都需要很长的时间，根本没办法满足要求。搞了这么久发现通过增加服务器的方式根本满足了现在的需求。

又去调研了一下 google ai platform,文档里又没找到关于 pytoch,onnx 格式的支持。

就想问问你们对于这种高并发模型推理，都用什么平台和方式部署。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/870909

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.