模型部署的姿势

88 天前

anivie

小白想问问现在的模型一般都是怎么部署的？直接用 python 的框架部署上去吗？还是导出给 c++部署？看到好像 onnx 部署的文章好像很稀少，大伙都是直接用 python 部署的吗？

1795 次点击

所在节点

机器学习

9 条回复

Hans999632

88 天前

我是用 vllms ，或者 ollama ，不过 ollama 慢，实在不行直接用本地模型

anivie

88 天前

@Hans999632 本地模型？这不都是本地的吗

qiniu2025

88 天前

用 flashai.com.cn 下载整合包,win 或者 mac 无需任何安装配置,下载解压运行,开箱即用, 内置聊天+知识库+翻译应用

anivie

88 天前

@qiniu2025 我不是在问怎么用大模型，是在问怎么部署这些大模型

qiniu2025

88 天前

@anivie 你要在哪里部署?PC 端还是服务器,并发不重要就无脑上 ollama

neteroster

88 天前

个人简单用用 llama.cpp 就行，要生产环境或者有高并发 / 高性能要求的推荐 sglang ，会比 vllm 快。

wxm1997

88 天前

生产级别的主流开源推理框架有 tgi vllm sglang tensorrt-llm lmdeploy ，这些框架都支持直接启动 openai compatible 的 http server ，后面可以接 rag 或者那种 chatbot gui 来调 api ，性能和兼容性略有不同
vllm 支持的模型应该是最多，trt-llm/sglang 性能更好
自己部署着玩可以用 ollama

anivie

87 天前

@wxm1997 谢谢大佬，想问问非 llm 的模型怎么部署呢，cs 或者 cv 类的任务有什么部署方式吗

wxm1997

83 天前

@anivie #8 可以看下 bentoml ，这个项目允许你在现有的推理代码上简单包一层就可以部署生产级别的服务

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1101819

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.