V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
larisboy
V2EX  ›  问与答

RAG 召回率低?可能是知识库分段没做好!求问大佬们的经验​

  •  
  •   larisboy · 23 天前 · 343 次点击
    各位做 RAG 的小伙伴们,最近在搞知识库的时候遇到个问题,想请教一下大家:

    向量库召回率不太行,初步排查可能是知识库的分段方式有问题。比如,一段太长或者分段不合理,导致模型检索不到关键信息。

    ​想问大家几个问题​:

    ​1 、知识库文档一般用什么格式?​​ 比如纯文本、Markdown ,还是结构化 JSON ?哪种更适合 RAG ?
    ​2 、怎么分段比较合理?​​ 是按段落分,还是按章节分?有没有什么技巧能保证上下文连贯性?
    ​3 、如果文档里有代码、图表或者多模态内容,怎么处理?​​ 直接丢进去,还是得额外处理?目前我尝试​在 dify 中通过最大 4000tokens 进行分段,但效果不好,可能是因为上下文断了( pdf 、Markdown 无法很好的分段,因为上下文是有关联的)。


    有没有现成的分段策略可以参考?或者有没有工具/库能自动优化分段?欢迎分享!感谢大佬们~ 🙏
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2496 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 10:46 · PVG 18:46 · LAX 03:46 · JFK 06:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.