首页
注册
登录
clvin 最近的时间轴更新
clvin
V2EX 第 517591 号会员,加入于 2020-11-16 09:24:06 +08:00
clvin
提问
技术话题
好玩
工作信息
交易信息
城市相关
clvin 最近回复了
84 天前
回复了
ddvswgg
创建的主题
›
程序员
›
关于在本地部署开源模型的一些问题请教
1. 40G 可以跑 7B 的模型。
2. ollama 是比较方便的部署方式,如果想并发性能更好一些,可以使用 vllm 来推理。
3. 熟练的话就很快,不熟的话照着文档来部署。
4. ollama 和 vllm 都支持兼容 openai API 接口,就是 http 调用。
5. 上 RAG 可以使用集成好的框架,比如 dify 之类的。
6. 上 RAG 的话,还需要 EMBEDDING 和 RERANK 的模型,具体可以看 dify 的文档。
133 天前
回复了
TriiHsia
创建的主题
›
分享创造
›
🌼 BalmyTime 一款跨平台的休息提醒 & 屏幕时间工具,欢迎体验
求一个码,谢谢~ aGNsdmluQGdtYWlsLmNvbQ==
»
clvin 创建的更多回复
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
942 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms ·
UTC 21:02
·
PVG 05:02
·
LAX 13:02
·
JFK 16:02
Developed with
CodeLauncher
♥ Do have faith in what you're doing.