求推荐一个轻量 RAG LLM chat 的部署方案

114 天前
 GrayXu

需求:

  1. 构建英文 pdf 知识库,一次对话讨论可以涉及多个文件
  2. 向量数据库最好本地化
  3. 不需要本地部署模型,所有 embed, rerank, chat models 都用 api
  4. 不需要用户管理等冗余功能

看好多方案,ragflow fastgpt langchain-chatchat ,不知道实际用起来如何?或者有其他推荐的方案?

ChatGPT-Next-Web-langchain 感觉在上游的简单前端框架下加 rag 的逻辑,还是有点勉强了。

1856 次点击
所在节点    问与答
16 条回复
mumbler
114 天前
个人用吗,可以试试 flashai.com.cn 的云端版,开箱即用,支持 mac 和 win ,本地知识库+本地向量化,另外还有带本地大模型版本
GrayXu
113 天前
@mumbler #1 谢谢,这个方案看上去限制蛮多的,付费了也只有 8b 的模型。我们已经有 embedding, rerank, chat 的完整 api 服务了。
lixen9
113 天前
fastgpt 试用过感觉还行,蛮符合你的需求来着,开源版本即可
GrayXu
113 天前
@lixen9 #3 谢谢 试了一圈 fastgpt 确实是最好上手的。看了下小规模使用下,开源版本没啥问题,就是配置系统比较麻烦 XD
regent
113 天前
@mumbler 这款产品您试过吗 对比 AnythingLLM 效果如何
echoless
113 天前
embed, rerank 这些 api 你是用的开源的么?

我倒是想整合 RAG 这些到 https://github.com/swuecho/chat (只有 chat 功能)
然后可以(optional) 配置 embed, rerank API.
GrayXu
113 天前
@echoless #6 有的是开源的,有的不是
GrayXu
113 天前
@echoless #6 你可以关注下 siliconflow ,最近上了 embedding ,后面会上 rerank 。
pieerepeng
113 天前
补充个 dify.ai

本地 llm 选,ollama 或者 nitro

我搭建过,就是处理的英文 pdf 。
SoloKing
113 天前
dify+1
wm5d8b
113 天前
模型不在本地部署,全用 api ,钱包它同意嘛
本地用 ollama 部署挺简单的,就是大概 12G 显存得 24 小时处于 standby 状态
GrayXu
112 天前
@wm5d8b #11 12G 算上量化只能部署个 9B 的模型吧。只能说离“能用”还有很大距离
zqqian
109 天前
所以楼主最后调研的结果是什么,能说一下吗?
GrayXu
108 天前
@zqqian #13
FastGPT ,感觉是满足功能需求的最轻的选择了。问题的话,还是存在一些小 bug ,然后看上去他们社区版维护的比较随意。
zqqian
108 天前
@GrayXu #14 我在测试 FastGPT 后觉得他们的 PDF 分割的效果不太好,不知道有没有效果更好一些的
GrayXu
97 天前
@zqqian #15 分割?感觉大家分割方案现在都差不多吧。还是等等 GraphRAG 吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1057169

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX