MidSearch:一个基于 ChatGPT 的文档搜索引擎

2023-05-14 19:57:21 +08:00
 sinex

背景

如果大家做过开源项目或者在公司内部为其他部门提供服务,就会发现一个问题,很多用户并不会好好看文档而是直接咨询答疑人员。这种情况可能是用户的信息检索能力有限,也有可能是文档组织混乱,难以供用户检索。因此,如果能够将文档投喂给 ChatGPT ,让 ChatGPT 生成答案,能够大大减少答疑人员的工作量。

基于文档的聊天机器人方案其实已经有很多了,包括但是不限于 Langchain 、LlamaIndex 、闻达,遗憾的是无法满足下面的需求:

项目介绍

项目起名为 MidSearch ( https://github.com/gorse-io/midsearch ),意思为从聊天机器人到搜索引擎的中间件。MidSearch 的工作量和其他 ChatDocs 产品没有什么区别。首先将文档导入到 Postgres 中,文档给会被分割并向量化。当收到用户提问的时候,首先将问题向量化,在 Postgres 中找到向量距离最近的几篇文档,最后将文档和问题发给 ChatGPT 生成最终的回答。

目前文档类型支持 Markdown ,机器人支持 Discord 和 Telegram ,后续会更多的文件类型和机器人。

演示

程序员做饭指南

如果将程序员做饭指南( https://github.com/Anduin2017/HowToCook )导入到 MidSearch 中,就可以得到一个菜谱机器人(Telegram:@how_to_cook_bot)。搭建菜谱机器人的方法参考文章如何搭建一个菜谱机器人

可以使用按钮对回答进行评价。

管理后台

管理后台可以查看用户对于回答的评价统计、浏览回答记录、管理文档。

2956 次点击
所在节点    分享创造
8 条回复
justincnn
2023-05-14 20:02:07 +08:00
这个太棒了,期待 lz 更新新版本,我献上了第一星
Aloento
2023-05-14 20:03:17 +08:00
这个太棒了,期待 lz 更新新版本,我献上了第二星
blankmiss
2023-05-14 23:57:08 +08:00
这两个小号?
sinex
2023-05-15 00:21:33 +08:00
@blankmiss 可能他们是 AI😂
haozes
2023-05-15 10:08:28 +08:00
感觉不错的 idea
poupoo
2023-05-15 11:31:10 +08:00
我看行 很有盼头
ganbuliao
2023-05-16 09:58:18 +08:00
sinex
2023-05-16 10:05:27 +08:00
@ganbuliao 类似的产品是很多的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939933

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX