首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
广告
V2EX
›
问与答
RAG 召回率低?可能是知识库分段没做好!求问大佬们的经验
larisboy
·
23 天前
· 343 次点击
各位做 RAG 的小伙伴们,最近在搞知识库的时候遇到个问题,想请教一下大家:
向量库召回率不太行,初步排查可能是知识库的分段方式有问题。比如,一段太长或者分段不合理,导致模型检索不到关键信息。
想问大家几个问题:
1 、知识库文档一般用什么格式? 比如纯文本、Markdown ,还是结构化 JSON ?哪种更适合 RAG ?
2 、怎么分段比较合理? 是按段落分,还是按章节分?有没有什么技巧能保证上下文连贯性?
3 、如果文档里有代码、图表或者多模态内容,怎么处理? 直接丢进去,还是得额外处理?目前我尝试在 dify 中通过最大 4000tokens 进行分段,但效果不好,可能是因为上下文断了( pdf 、Markdown 无法很好的分段,因为上下文是有关联的)。
有没有现成的分段策略可以参考?或者有没有工具/库能自动优化分段?欢迎分享!感谢大佬们~ 🙏
目前尚无回复
召回率
知识库分段
rag
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2496 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms ·
UTC 10:46
·
PVG 18:46
·
LAX 03:46
·
JFK 06:46
Developed with
CodeLauncher
♥ Do have faith in what you're doing.
❯