基于 LangChain 的开源 GPT 向量 + 知识数据库，帮助个人或企业实现自己的专属 AI 问答助手

爱意满满的作品展示区。

This topic created in 852 days ago, the information mentioned may be changed or developed.

Casibase （ https://github.com/casibase/casibase ）是一套开源的基于 Web 的 AI 知识数据库，适合个人或者组织作为自己的专属内部 AI 知识库来使用。GitHub 已达到 1600+ stars ，欢迎体验~

主要功能如下：

支持 OpenAI GPT-4 模型、GPT Vision 图片解析、DALL-E 画图等功能；
支持最新的 Claude 3 Opus 、Sonnet 等模型，超越 GPT-4 ；
国际模型支持：Azure OpenAI 、Google Gemini Pro 、HuggingFace 、Cohere 等；
国内模型支持：文心一言、通义千问、ChatGLM 、Minimax 、讯飞星火等；
支持多种 Embedding 嵌入 API 接口，如 OpenAI V3, Ada V2, 百度文心一言等；
支持多种通用文档格式：TXT, Markdown, Docx, PDF 等，支持 PDF 文件智能解析；
支持以会话或消息为单位，计算所有大模型 API 的 Token 数和价格（美元或人民币），方便管理员进行 API 成本统计；
支持 AI 小助手通过右下角弹框嵌入到应用网站，进行在线实时聊天，支持聊天会话人工接入；
知识库文档存储支持本地存储，或云端存储（阿里云 OSS 、Amazon S3 、群晖 NAS 等几乎所有主流云存储都有支持）；
支持多用户、多租户，支持管理员进行用户管理、角色管理、权限管理，既适合个人使用，也适合组织使用；
支持 QQ 、微信、企业微信、钉钉、Google 、GitHub 等多种第三方登录，支持短信登录、邮箱验证码登录登；
支持谷歌 reCAPTCHA 、hCaptcha 、阿里云、GEETEST 极验、Cloudflare Turnstile 等多种人机验证方式，专业防盗刷；
聊天会话云端存储，所有设备实时消息同步，随时可查看，不会丢失；
支持中文、英文等在内的十几种界面语言。

在线体验：

机器人聊天（前台）： https://demo.casibase.com/
后台管理（后台）： https://demo-admin.casibase.com/

源码：

GitHub： https://github.com/casibase/casibase
官网文档： https://casibase.org

社区反馈：

Discord: https://discord.gg/devUNrWXrh
QQ 群：963536134

Casibase

问答

132 replies • 2026-02-09 10:20:28 +08:00

1 2

❮

❯

fredweili

Mar 11, 2024

这是什么？又一个向量数据库？

cccb

Mar 11, 2024

向量数据库用的是什么？向量的存储和检索是用什么工具实现的？

akagishigeru

Mar 11, 2024

error, status code: 429, message: Requests to the ChatCompletions_Create Operation under Azure OpenAI API version 2023-05-15 have exceeded token rate limit of your current OpenAI S0 pricing tier. Please retry after 13 seconds. Please go here: https://aka.ms/oai/quotaincrease if you would like to further increase the default rate limit.

coolair

Mar 11, 2024

和 https://github.com/danswer-ai/danswer/ 比，有啥优势吗？
向量数据库在新文档上传后，会自动刷新吗？

veotax

PRO

Mar 12, 2024

@fredweili 内置一个向量数据库，为知识数据库提供向量查询功能

@cccb 内置实现的，可以存储在 MySQL 、Postgres 等数据库中，采用余弦距离作为检索算法

@JaguarJack 可能是演示站同时使用的人有点多，API 限制了，可以稍等下再用哈~

@coolair 可以刷新，相比 danswer 的特点包括：后台管理更为强大、支持计算 API 费用、支持国内大模型、开源版支持单点登录 SSO 等

weixind

Mar 13, 2024

https://fastgpt.in/ 还有一个这个。都是实现一样的产品吧。

jackrebel

Mar 13, 2024

支持一下.

boringwheat

Mar 13, 2024

刚好有这方面的需求，问一下，外挂 Embedding 目前是不是只能从文档内提取啊，结构化数据 JSON 有 api 支持吗？

tommyshelbyV2

Mar 14, 2024

这个方向有很多人做了，光余弦其实效果不好的。这东西也不好变现

Bantes

Mar 15, 2024

https://dify.ai 差不多的产品

kneo

Mar 17, 2024

不是很确定这东西是不是真的有用。文本搜索就能直接搜出来的标准答案，它会自己重新编一个似是而非的。

veotax

PRO

Mar 17, 2024

@boringwheat 架构是前后端分离的，所有功能都有 HTTP API ，包括 Embedding 的 CRUD API

@kneo 经过多位用户反馈和实际测试，采用 GPT-4 的模型，实测效果还是不错的

ffgrinder

Mar 17, 2024

@tommyshelbyV2 我也想请教一下除了余弦之外有什么比较好的实践吗

MasonXu

Mar 18, 2024

@kneo 对作者提供的这个不保证结果。但是我做过一个类似的，通过将原始的素材向量化作为初始的数据。用户搜索的时候，也向量化处理并与上一步已经转换为向量的内容做相似度匹配查询。高于特定的比例，例如 0.8 就取原始的答案输出，否则提示找不到，不会自己编写胡扯的

muchenlou

Mar 20, 2024

@MasonXu 大佬你好，这个有类似的开源项目吗？

lointo

Mar 20, 2024 via Android

有适合代码转向量的向量模型吗

ren2881971

Mar 21, 2024

适合国内脑瘫老板，他们总是想私有化部署美，其名曰保护他们企业那点没人关注的数据。

veotax

PRO

Mar 21, 2024

@muchenlou 向量相似度的阈值，这种基本功能都有的，这个放心

@lointo Casibase 内置了多个切词算法，也叫 Split Provider ，可以选择适合代码的切词算法

cvooc

Mar 21, 2024

@ren2881971 这一拳可以啊, 这会咋没人说保护隐私了

ren2881971

Mar 21, 2024

@retrocode 国内无隐私。。

lointo

Mar 21, 2024

@veotax 嗯可能有一点点误解不是对代码的切分是能够把代码向量化的向量模型类似 m3e bge 这类目前知道的都是收费的. 没有自己本地能够部署的. 这里有个相关的对比 https://huggingface.co/moka-ai/m3e-base#%E2%9A%96%EF%B8%8F-%E6%A8%A1%E5%9E%8B%E5%AF%B9%E6%AF%94
正在调研类似的系统参考列表
可独立部署:
fastgpt
dify.ai
chatollama
langflow
Flowise
Langchain-Chatchat

在线的
coze
chato

beyondex

Mar 21, 2024

代码向量化？需要做相似代码片段搜索吗？

Liftman

Mar 21, 2024

这种实际上的效果。。并不理想。试过类似的。。。而且大部分人连半吊子都不是。很难真的实现效果理想

ohazyi

Mar 22, 2024

有对比过不同的向量数据库 / 语言模型的效果/性能优劣吗？比如你说的 m3 bge 什么的

veotax

PRO

Mar 22, 2024

@lointo @ohazyi Casibase 提供了 Embedding Provider 抽象接口，支持各种类型大模型 API 和本地模型的向量化功能。目前实测效果最好的是 OpenAI 的 Embedding V2 以及 V3 模型： https://github.com/casibase/casibase/blob/master/embedding/provider.go

wangxiaoer

Mar 23, 2024

这种方案有几个问题：

1 基于向量搜索的准确度如何，毕竟最后的答案是需要大模型（ GPT ）通过向量搜索结果进行二次加工（编造）的。

2 隐私性如何保障：向量搜索结果要作为输入发送给大模型，关注隐私的基本无法用了。

meinjoy

Mar 24, 2024

国内有个 marvis 和你这个一样吧

QiShine

Mar 26, 2024

和网易的 Qanything 比较像

ddddd0

Mar 26, 2024

@Liftman 试试 gptbase.ai 是我用过的精度相对好的产品了

dnsjia

Mar 26, 2024

@ddddd0 不错，有对应的开源项目么

ffwei107

Mar 26, 2024

邀请您使用人工智能问答机器人——AI 问答宝：
https://17281.invite.wendabao.net

shiyuu

Mar 27, 2024

兄弟，知识库要怎么制作啊？我部署了阿里的千问，直接上传一个公司规章制度没有修改过的 word ，根本识别不出来，直接复制文字成 txt 也不识别，更别说其他格式的东西了。
这知识库是不是要有固定的格式？？？

mio4kon

Mar 27, 2024

demo 网站怎么上传 pdf 进行测试呢？

veotax

PRO

Mar 28, 2024

@shiyuu 在数据仓库这个页面（比如： https://demo-admin.casibase.com/stores ），点击对应仓库的“刷新向量”这个按钮，Casibase 会对这个仓库对应的“存储提供商”里的所有文件进行向量索引操作，go 后端会有日志输出。还有其他具体问题可以在 Q 群里提问哈，回答会比较快些~

ideaa

Mar 30, 2024

来试试文心一言+知识库的客服系统吧，可以完全自建
https://www.oamad.cn/

nunterr

Apr 1, 2024

功能先不说，你们的主页，和聊天的性能可以优化一下😄，太慢了～～

chlinlearn

Apr 2, 2024 via Android

有没有像 kimi 支持在线文章链接总结分析的模型推荐？

Devocy

Apr 2, 2024

内部实现向量数据库这一点让我很感兴趣。这个资料希望对你有帮助 https://skyzh.github.io/write-you-a-vector-db

ddddd0

Apr 3, 2024

@dnsjia 应该没开源

lstz

Apr 6, 2024 via Android

我想把此项目集成进项目里，可以吗

lstz

Apr 6, 2024 via Android

抱歉，想集成到我的开源系统

veotax

PRO

Apr 6, 2024

@nunterr 演示站的这个性能问题是由于调用了 OpenAI 接口，API 调用到地球另一边有延迟。你自建，然后用国内模型就速度完全没问题了。主页则是 GitHub Pages ，这个看你的网好不好了

veotax

PRO

Apr 6, 2024

@chlinlearn Casibase 支持上传 PDF 文件作为知识库，然后进行问答（包括总结）

veotax

PRO

Apr 6, 2024

@lstz 欢迎集成哈

romisanic

Apr 7, 2024

点开项目才发现，之前已经 star 过了
那就手动给 OP 点个赞吧

shm7

Apr 8, 2024

外面都是用大模型/GPT4 的方案，你整个不用大模型的，才能体现出差异化； D

sampeng

Apr 9, 2024

其实我很像要一个 chatpdf 这样的产品。。。但找了一圈也没有体验类似的

dabaibai

Apr 9, 2024

马克一下以后看看

context1997

Apr 10, 2024

@sampeng KIMI 这种可以读文章的不行？

sampeng

Apr 10, 2024

@cd605426287 读文章没意义的。只能是玩具。。要像 chatpdf/chatdoc 一样。能自动跳转 pdf 的引用，根据引用来读

tingshijie520

Apr 11, 2024

langchain 应该是 python 写的吧，这个基于 langchain 是指基于他的思想还是使用 go 语言版本呢？

evan9527

Apr 15, 2024

0 代码基础，有没有那种傻瓜式的，我只需投喂各种文档（ pdf ，excel ，图片等），可以帮我连接各个文档检索内容的 ai 工具？就像是 kimi 离线版。
kimi 目前我使用有一个问题就是，文档内容修改后就得重新开启会话上传新文档。

tingshijie520

Apr 16, 2024

@evan9527 网易的 QAnything

sirz

Apr 17, 2024

@ren2881971 更多的是合规性要求

wwhc

Apr 22, 2024

真正保护公司／个人信息数据的只能是在本地部署的开源大模型如 LLAMA/Mistral ，这才可以脱离互联网使用，没有数据泄漏的状况。把数据送到外部 AI 服务，没有任何私隐可言

hitsmaxft

May 10, 2024 via iPhone

@tommyshelbyV2 光靠向量相似度，效果不如传统搜索呢。。

chenjianyi

May 16, 2024

用过 maxkb ，和这个相比怎样呢？

veotax

PRO

May 16, 2024

@chenjianyi 这个企业级应用要强很多，功能很细

dislazy2023

May 16, 2024

我前几天用同样的本地数据，就几 KB 使用 maxkb + 星火 3.5 做了一个简单的 ai 感觉速度奇慢，准确度还低，调教起来挺费劲的

veotax

PRO

May 17, 2024

@dislazy2023 Casibase 可支持 100GB 以上的文档数据（ docx 、pptx, pdf 等）作为知识库，采用先进的向量检索算法，对知识进行检索，性能强悍。可以部署试用下

elseswitch

May 17, 2024

数据量大的情况下，准确度会不会很差？

whoosy

May 17, 2024

有个问题想请教下，关于向量搜索这块，对于每个拆分出来的段落，段落标题描述的准确性和段落的 size 是否会直接影响到搜索结果？

hydyy

May 17, 2024

正好要找类似的，我们用户都有自己的一套数据，能为每个用户提供只对自己的数据搜索吗？

veotax

PRO

May 17, 2024

@elseswitch 不会，通过 Open AI Embedding API + 最佳向量相似度算法，保证高准确度

@whoosy Casibase 带有启发式的 Splitter 切分算法，能够智能分段。也可以自定义 Splitter 切分算法

@hydyy 可以，Casibase 本身支持多租户，每个组织里的每个用户，都可以有自己的知识库（文档集合）

xiaochengdengya

May 20, 2024

支持一下

ex1gtnim7d

May 21, 2024

有准确性的测评数据吗

wxyudl

May 21, 2024

ZGame

May 23, 2024

后台管理好像打不开

wsbqdyhm

May 25, 2024

看着还不错

DaChengDawn

Jun 7, 2024

借楼分享一个我和同事一起开发的 AIGC 能力生成婚礼演讲
选择角色、风格、长度后（也可补充输入个人故事），可一键生成演讲内容~
体验地址： https://aiweddinggenerator.com
后续会持续优化和拓展功能

xinyana

Jun 8, 2024 via Android

我感觉好像不错呢，回头试一下

Figurs

Jun 17, 2024

收藏一下

xing7673

Jun 25, 2024

@ren2881971 #20 是的，三星是中国的

murmur

Jul 12, 2024

@ren2881971 研发经费得有地方花啊

ren2881971

Jul 15, 2024

@murmur 哈哈我们公司那代码写的跟屎一样。一行注释都没有就别说文档了。就这领导还要弄个 AI 编程助手呢真的谢了。

popdo

Jul 17, 2024

演示后台进不去，无限回退到登录页

Altairvelvet

Jul 20, 2024

牛逼，感觉非常不错的产品！

Altairvelvet

Jul 20, 2024

@popdo 是的，我也发现进不去后台。

bboring

Aug 9, 2024

An error occurred during responding.
The target vector's length: [1536] should equal to knowledge vector's length: [3], target vector = [-0.021851055 -0.007065261 -0.028624363 -0.024381313 -0.023524918 0.02914339 -0.01248261 -0.002765443 -0.008200633 -0.005076737 0.029299099 -0.003261763 -0.015700579 -0.0025918933 0.012197144 -0.001033189 0.03861564 0.005809863 0.018970452 -0.013650421 -0.019800896 0.010043181 0.0051837866 0.008940248 -0.008129267 -0.005323275 0.0025935152 -0.012138754 0.0033542148 -0.015765458 0.0038213395 -0.016193656 -0.017841568 -0.01293027 0.004087341 -0.016310437 -0.0008628831 -0.009770691 0.02147476 -0.0084731225 0.013001637 -0.0065073064 0.0034937034 -0.0068316986 -0.027897725 0.013313053 -0.012696709 0.0004338745 -0.014935014 0.0359686 0.009225712 0.012852416 -0.014792281 -0.0005234878 -0.0061699385 -0.014740379 -0.007811363 0.006189402 0.007597264 -0.043805916 0.00305253 0.024134776 -0.0060077426 0.015090723 -0.0044766115 0.019995531 0.01533726 0.0051026884 0.008414732 0.017828591 0.02307077 0.019411625 0.0119960215 -0.011236943 0.01711493 -0.01663483

veotax

PRO

Aug 10, 2024

@popdo @Altairvelvet @bboring 均已修复