哪个 rag 系统比较靠谱?

186 天前
 wencan

之前在 DIFY 上测试了体检报告的效果,基本是个笑话。

于是降低要求
找了份科幻小说 txt 文件:猎户座防线

上传到 DIFY 的知识库,配置都选默认
模型有:chatgpt3.5 、月之暗面 v1 、glm4 、文心一言刚免费的 speed 。

效果只举两个例子
小说中反复提到“大副迪尔”,还有这么一段:

    “我来自丹那芭⑤”她说,“你知道那儿吗?”
    “不。”
    “它距离地球 1600 光年……

问“丹那芭距离地球多少光年?”,基本都能答对,这点我有点小惊讶。
问“迪尔是什么职务”,居然都回答不知道或者说文中没提。

不甘心,打开 kimi ,上传文件,问“迪尔是什么职务”,kimi 马上答上了

1573 次点击
所在节点    OpenAI
14 条回复
gaobh
186 天前
fastgpt 效果好
nnqijiu
186 天前
WPS AI 的 rag 不错,不过好像收费了
xenoblade
186 天前
我认为这个例子其实应该归类为“RAG VS 长上下文”,恰恰说明了长上下文在有限信息的 QA 中完胜 RAG 。
目前 langchain 系的 通用 RAG 系统上限就在那里了,要想达到更高的精确度需要对不同领域进行微调,例如例子中读书场景的 prompt 优化、chunk 分割的人工干预。
wencan
185 天前
@xenoblade rag 也属于上下文
dify 上换上 https://github.com/netease-youdao/BCEmbedding 的 embedding 和 rerank 模型,效果杠杠的
butterls
182 天前
主要是只有切片会丢失上下文,RAG 里要存的实际是类似知识图谱的上下文数据,比如你要做代码仓分析,rag 就能查到函数块,上下文引用,宏定义啥的都米有,那分析结果就跟个二傻子一样
codingbody
158 天前
@wencan #4 dify 上配置 bce 的 embedding 和 rerank ,这两个模型需要自己部署吧?
wencan
157 天前
fakecoder
152 天前
op 用 llamaindex 感觉咋样
wencan
152 天前
@fakecoder 1. 代码质量很差 2. 还没到 1.0
fakecoder
152 天前
@wencan #9 后来为啥不用 dify 了,现在还在用 llamaindex 吗?
wencan
152 天前
@fakecoder dify 太弱了,适合给不会写代码的人做玩具
llamaindex 虽然问题多多,但相比之下,还是能解决问题
fakecoder
152 天前
@wencan #11 好的,感谢解答
ccxuy
29 天前
@wencan 有没有参考材料? 我们也想做个内部知识库,简单搞了下 dify 发现召回率太差了
wencan
29 天前
@ccxuy 建议先照着 llamaindex ,自己写着试试。如果还是不能满足需求,跟我一样,自己撸吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1042937

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX