基于 LangChain 的开源 GPT 向量 + 知识数据库,帮助个人或企业实现自己的专属 AI 问答助手

2024-03-11 10:32:55 +08:00
veotax  veotax

Casibase ( https://github.com/casibase/casibase )是一套开源的基于 Web 的 AI 知识数据库,适合个人或者组织作为自己的专属内部 AI 知识库来使用。GitHub 已达到 1600+ stars ,欢迎体验~

主要功能如下:

在线体验:

源码:

社区反馈:

78237 次点击
所在节点   分享创造  分享创造
111 条回复
fredweili
fredweili
2024-03-11 10:38:49 +08:00
这是什么?又一个向量数据库?
cccb
cccb
2024-03-11 10:58:05 +08:00
向量数据库用的是什么?向量的存储和检索是用什么工具实现的?
JaguarJack
JaguarJack
2024-03-11 11:06:24 +08:00
error, status code: 429, message: Requests to the ChatCompletions_Create Operation under Azure OpenAI API version 2023-05-15 have exceeded token rate limit of your current OpenAI S0 pricing tier. Please retry after 13 seconds. Please go here: https://aka.ms/oai/quotaincrease if you would like to further increase the default rate limit.
coolair
coolair
2024-03-11 11:37:12 +08:00
https://github.com/danswer-ai/danswer/ 比,有啥优势吗?
向量数据库在新文档上传后,会自动刷新吗?
veotax
veotax
2024-03-12 21:26:44 +08:00
@fredweili 内置一个向量数据库,为知识数据库提供向量查询功能

@cccb 内置实现的,可以存储在 MySQL 、Postgres 等数据库中,采用余弦距离作为检索算法

@JaguarJack 可能是演示站同时使用的人有点多,API 限制了,可以稍等下再用哈~

@coolair 可以刷新,相比 danswer 的特点包括:后台管理更为强大、支持计算 API 费用、支持国内大模型、开源版支持单点登录 SSO 等
weixind
weixind
2024-03-13 09:55:53 +08:00
https://fastgpt.in/ 还有一个这个。都是实现一样的产品吧。
jackrebel
jackrebel
2024-03-13 11:01:02 +08:00
支持一下.
boringwheat
boringwheat
2024-03-13 14:13:14 +08:00
刚好有这方面的需求,问一下,外挂 Embedding 目前是不是只能从文档内提取啊,结构化数据 JSON 有 api 支持吗?
tommyshelbyV2
tommyshelbyV2
2024-03-14 09:47:29 +08:00
这个方向有很多人做了,光余弦其实效果不好的。这东西也不好变现
Bantes
Bantes
2024-03-15 10:46:11 +08:00
https://dify.ai 差不多的产品
kneo
kneo
2024-03-17 16:35:46 +08:00
不是很确定这东西是不是真的有用。文本搜索就能直接搜出来的标准答案,它会自己重新编一个似是而非的。
veotax
veotax
2024-03-17 22:46:46 +08:00
@boringwheat 架构是前后端分离的,所有功能都有 HTTP API ,包括 Embedding 的 CRUD API

@kneo 经过多位用户反馈和实际测试,采用 GPT-4 的模型,实测效果还是不错的
ffgrinder
2024-03-17 23:03:42 +08:00
@tommyshelbyV2 我也想请教一下除了余弦之外有什么比较好的实践吗
MasonXu
2024-03-18 13:50:10 +08:00
@kneo 对作者提供的这个不保证结果。但是我做过一个类似的,通过将原始的素材向量化作为初始的数据。用户搜索的时候,也向量化处理并与上一步已经转换为向量的内容做相似度匹配查询。高于特定的比例,例如 0.8 就取原始的答案输出,否则提示找不到,不会自己编写胡扯的
muchenlou
2024-03-20 14:07:32 +08:00
@MasonXu 大佬你好,这个有类似的开源项目吗?
lointo
2024-03-20 23:15:11 +08:00
有适合代码转向量的向量模型吗
ren2881971
2024-03-21 08:59:55 +08:00
适合国内脑瘫老板,他们总是想私有化部署美,其名曰保护他们企业那点没人关注的数据。
veotax
2024-03-21 11:06:09 +08:00
@muchenlou 向量相似度的阈值,这种基本功能都有的,这个放心

@lointo Casibase 内置了多个切词算法,也叫 Split Provider ,可以选择适合代码的切词算法
retrocode
2024-03-21 11:13:58 +08:00
@ren2881971 这一拳可以啊, 这会咋没人说保护隐私了
ren2881971
2024-03-21 11:38:19 +08:00
@retrocode 国内无隐私。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1022439

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX