求推荐一个轻量 RAG LLM chat 的部署方案

177 天前

GrayXu

需求：

构建英文 pdf 知识库，一次对话讨论可以涉及多个文件
向量数据库最好本地化
不需要本地部署模型，所有 embed, rerank, chat models 都用 api
不需要用户管理等冗余功能

看好多方案，ragflow fastgpt langchain-chatchat ，不知道实际用起来如何？或者有其他推荐的方案？

ChatGPT-Next-Web-langchain 感觉在上游的简单前端框架下加 rag 的逻辑，还是有点勉强了。

2269 次点击

所在节点

问与答

17 条回复

mumbler

177 天前

个人用吗，可以试试 flashai.com.cn 的云端版，开箱即用，支持 mac 和 win ，本地知识库+本地向量化，另外还有带本地大模型版本

GrayXu

177 天前

@mumbler #1 谢谢，这个方案看上去限制蛮多的，付费了也只有 8b 的模型。我们已经有 embedding, rerank, chat 的完整 api 服务了。

lixen9

177 天前

fastgpt 试用过感觉还行，蛮符合你的需求来着，开源版本即可

GrayXu

176 天前

@lixen9 #3 谢谢试了一圈 fastgpt 确实是最好上手的。看了下小规模使用下，开源版本没啥问题，就是配置系统比较麻烦 XD

regent

176 天前

@mumbler 这款产品您试过吗对比 AnythingLLM 效果如何

echoless

176 天前

embed, rerank 这些 api 你是用的开源的么?

我倒是想整合 RAG 这些到 https://github.com/swuecho/chat (只有 chat 功能)
然后可以(optional) 配置 embed, rerank API.

GrayXu

176 天前

@echoless #6 有的是开源的，有的不是

GrayXu

176 天前

@echoless #6 你可以关注下 siliconflow ，最近上了 embedding ，后面会上 rerank 。

pieerepeng

176 天前

补充个 dify.ai

本地 llm 选，ollama 或者 nitro

我搭建过，就是处理的英文 pdf 。

SoloKing

176 天前

dify+1

wm5d8b

176 天前

模型不在本地部署，全用 api ，钱包它同意嘛
本地用 ollama 部署挺简单的，就是大概 12G 显存得 24 小时处于 standby 状态

GrayXu

175 天前

@wm5d8b #11 12G 算上量化只能部署个 9B 的模型吧。只能说离“能用”还有很大距离

zqqian

172 天前

所以楼主最后调研的结果是什么，能说一下吗？

GrayXu

171 天前

@zqqian #13
FastGPT ，感觉是满足功能需求的最轻的选择了。问题的话，还是存在一些小 bug ，然后看上去他们社区版维护的比较随意。

zqqian

171 天前

@GrayXu #14 我在测试 FastGPT 后觉得他们的 PDF 分割的效果不太好，不知道有没有效果更好一些的

GrayXu

160 天前

@zqqian #15 分割？感觉大家分割方案现在都差不多吧。还是等等 GraphRAG 吧

skykk1op

25 天前

楼主有调研结果吗？我需要一个部署在本地的知识库

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1057169

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.