如何理解 HuggingFace 相关模型的加载过程

想请教一下各位大牛, 现在楼主开发的项目涉及到使用 HuggingFace 和 Django 来进行多用户推理,但是 Python 代码经常发生内存泄露,同时也很难排查原因.请问各位大牛有没有相关的读物,调试工具来进行问题的溯源?

同时还想问一下比如说在 GPU 推理的时候,加载模型是不是只用加载一次到 GPU 显存,之后每个用户都可以用了,如果同时进行推理呢?如果使用 CPU 推理的话,又是什么情况呢?有没有专门的文档说对应的过程呢?

先谢过大家!

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.