最近,在看一些 RAG 相关的内容,但在实操的时候发现生成的内容有些不尽人意。
第一个想到的点就是提供的原始数据有问题。比如,直接上传一本 <斗破苍穹.txt> 的小说,然后进行文本 chunk ,接着就是后面的流程,但效果就是脏数据进,脏数据出。
疑惑,是不是不应该直接使用原始数据,而是需要对数据进行处理。
但是怎么进行处理呢,比如 <斗破苍穹.txt> 这个小说,是要人工的总结里面的内容变为 Q&A 这种问答型结构在存储到知识库里面(这样做是不是工程量太大),还是要怎么样。
所以针对原始数据的数据清洗这一块要怎么做?清洗成什么样的结构给到知识库才能产生更好的效果。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.