小白想问问现在的模型一般都是怎么部署的?直接用 python 的框架部署上去吗?还是导出给 c++部署?看到好像 onnx 部署的文章好像很稀少,大伙都是直接用 python 部署的吗?
1
Hans999632 8 天前
我是用 vllms ,或者 ollama ,不过 ollama 慢,实在不行直接用本地模型
|
2
anivie OP @Hans999632 本地模型?这不都是本地的吗
|
3
qiniu2025 8 天前
用 flashai.com.cn 下载整合包,win 或者 mac 无需任何安装配置,下载解压运行,开箱即用, 内置聊天+知识库+翻译应用
|
6
neteroster 8 天前
个人简单用用 llama.cpp 就行,要生产环境或者有高并发 / 高性能要求的推荐 sglang ,会比 vllm 快。
|
7
wxm1997 7 天前
生产级别的主流开源推理框架有 tgi vllm sglang tensorrt-llm lmdeploy ,这些框架都支持直接启动 openai compatible 的 http server ,后面可以接 rag 或者那种 chatbot gui 来调 api ,性能和兼容性略有不同
vllm 支持的模型应该是最多,trt-llm/sglang 性能更好 自己部署着玩可以用 ollama |