有经验的 v 友看看,这个 AI 知识库私有化部署的方案行吗,怎么改进

3 天前
 XinPingQiHe

背景

客户方为集团公司,有相当的规模。

需求

1.大量企业内部使用的行业规范、行业标准文档,需要以文本格式加入知识库。 2.有会议录音,能自动生成会议纪要(区分讲话人),供办公人员修改及使用。 3.必须私有化部署。

暂定方案

知识库及大模型,使用 ollama + qwen2.5:b14 + AnythingLLM 录音到会议纪要,Whisper ASR

问题

客户也是先咨询咨询,这边也是搭建私有环境,做一些测试。 结果,觉得上传的一批 pdf 文档,查询知识库结果,关键词抓取的不是很满意。Whisper 看过 ,整合到系统,还没用。 目标是先验证整体效果的可行性,再与客户沟通、再做相关的应用对接开发 总体来说,也是一些尝试,不知大家有没有更好的,具备可行性的方案。

2451 次点击
所在节点    程序员
35 条回复
zqx0310liubo
3 天前
这是 rag 还是直接做的 prompt ,效果不行需要调试把,看上去你们的模型 size 也不大,能换个大点的么?
musi
3 天前
目前 RAG 没有做的好的,想做好成本不是一般大,说真的,你要是真能做好数据检索你都可以融波钱直接财富自由了
hmxxmh
3 天前
需求第一个,可以用 dify+qwen2.5, 第二个会议录音的没用过,不知道怎么集成进去
Leon6868
3 天前
whisper ASR 似乎没法精准分割说话人,我目前也在做涉及语音纪要的功能,可以交流交流
Leon6868
3 天前
@Leon6868 #4 个人测试,qwen2.5 32B 占用、速度和效果是最平衡的,也适合本地部署
wxd21020
3 天前
同类型需求,马住,希望 OP 成功,借鉴学习。
wanglinjie0926
2 天前
加个收藏 跟个后续。
ShutTheFu2kUP
2 天前
战略性插眼,学习方案
linwuhi
2 天前
战略性插眼,学习方案
magicZ
2 天前
@Leon6868 #5 用 next-gen kaldi ,录音如何设置好固定人数,应该能识别的不错。qwen2.5 32B 用什么卡?能支持几线请求啊,我只用过 4090 24G 部署 7b 的,同时请求,5 线比较稳定
RonniePolaer
2 天前
插眼,我们也在找相关的解决方案
younger027
2 天前
战略性插眼,学习方案
ccsert
2 天前
1. 行业规范文档处理
预处理脚本: 需要对文档进行预处理,包括去除无关信息、格式化文本、提取关键内容等。可以使用 Python 脚本结合正则表达式、BeautifulSoup 等工具进行处理。

文档清洗: 文档中可能包含图片、表格等复杂内容,这些内容可以通过 OCR 提取文本,或者通过专门的文档解析工具(如 Apache Tika )进行处理,现在有一些多模态的大模型对图片也有一定的理解,可以考虑尝试。

AI 二次提纯: 使用一些开源大语言模型将对提取的文本进行进一步处理,去除噪声、提取关键信息,这里实际提示词工程就已经可以做的比较优秀了。

知识库构建: 目前实际没有特别好的,但是因为上述的操作对文档已经做了清洗和提纯,到这一步实际使用一些 embedding 模型和开源向量库即可了,后续做知识库问答的时候可以使用一些简单的 rag 平台,例如 dify 这些以外部 api 的方式对接,这里个人觉得 dify 的知识库效果实际比较一般,当然也可以将处理好的文本内容通过 dify 的知识库 api 调用生成也不错。

2. 会议录音处理
说话人识别: 可以使用开源工具如 Kaldi 、pyannote.audio 等进行说话人识别。如果能在源头解决实际会更好一些,比如在会议录制的时候就确定说话人。

会议纪要生成: 这一步实际比较简单结合现有开源大模型提示词工程生成会议纪要。如果想做的更细致一些,可以在处理音频或视频数据的时候打时间轴标签。

时间轴跳转: 可以在生成的会议纪要中加入时间戳,方便用户快速跳转到特定时间点的内容。

3. 私有化部署
语言大模型选择: 目前开源的大模型效果已经很不错了,如果资金充裕,deepseek 私有化部署一整套包括预训练环境好像就是 50w 左右
整个过程实际工程量非常庞大,涉及的领域也比较庞杂,就算上述的基本要素已经具备,也还涉及大量的开发,文本解析,数据处理,提纯,甚至多智能体协同,函数调用都需要整合起来使用才能达到目标需求
ccsert
2 天前
@ccsert 这里虽然是行业规范文档,但是实际 ai 处理时候并不一定认为是规范的,在 embedding 过程中可能还是会出现拟合的情况,所以有时候清洗后二次提纯是很有必要的
williamZXS
2 天前
战略性插眼,学习方案
moomtong
2 天前
ollama 主要的场景还是在个人 pc 上跑模型,没有大范围的生产用例。

RAG 的效果是需要根据数据定制化去调的,首先 embedding 横向对比,然后文档的提取和切分方法,像你提到的 pdf 有些开源 RAG 本身内容提取就做的比较烂,可以看看导入的内容准不准确,表格之类读没读出来,标题和编号之类结构化信息有没有保留、能不能查到等等。还有排序方法也可以定制化去改。进一步提升效果的话内容本身也要做增强,补数据、摘要等等。还有不少其它的,网上资料很多可以看看。

但其实在这些之前,既然是集团公司,他们自己的文档现在是在哪里,云文档?公司有自己的知识库吗、要不要对接、现在有远程会议应用吗、有会议室录音硬件吗、你的服务是类似 gpt 的形式还是已有应用内插件的形式,这些个人感觉是先要考虑/谈的。

语音方面 Whisper 本身能力是很 ok 的,但是很可能还需要说话人识别。然后比较现实的问题是会议录音的音质,有的人可能离话筒远很小声,和多个人同时说话这种,目前业界也没什么很好的解。
jemmy1980
2 天前
战略性插眼,学习方案
paceewang1
2 天前
战略性插眼,学习方案
cshwen
2 天前
战略性插眼,学习方案
ttimasdf
2 天前
现在卡脖子的技术是数据清洗和 embedding ,再等个几年吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1084519

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX