向量存储数据库该如何选择?

178 天前
 sirz

目前了解到的向量存储数据库有如下几种,主要的场景就是 RAG 开发,知识库数据量应该不算特别多,哪种更适合?

chroma 、 elasticsearch 、 Milvus 、 neo4j 、 opensearch 、 pinecone 、 qdrant 、 redis 、 vespa 、 weaviate 、 pgvector

2364 次点击
所在节点    数据库
23 条回复
LuvYukino
178 天前
elasticsearch
ren2881971
178 天前
Milvus 这玩意好像是专门的向量数据库
mmdsun
178 天前
chroma 、Milvus 。
mark2025
178 天前
postgres + 插件(PGVector / Svector )
https://pigsty.cc/zh/blog/pg/pg-eat-db-world/
jackerbauer
178 天前
@LuvYukino #1 据说不咋好用啊
raycool
178 天前
Milvus
jackerbauer
178 天前
最近我们也要搞 RAG ,也在这块选呢,大家也帮忙参考参考,最好能支持混合检索的
jackerbauer
178 天前
点乘和欧氏最好都能支持的
me1onsoda
178 天前
pg 也支持
veotax
178 天前
@sirz Casibase ( https://github.com/casibase/casibase )是一套开源的基于 Web 的 AI 知识数据库,直接带有 RAG 聊天功能,也自带向量数据库。GitHub 已达到 2000+ stars ,欢迎体验~
inhzus
178 天前
先用 es ,大而全,文档多。唯一缺点是延迟相对高。有痛点的时候再蹚其它的坑
ihnfsa
177 天前
我用过 milvus 和 lancedb ,milvus 功能比较全面,lancedb python api 方便,适合快速开发小 deme 做测试用
kenvix
177 天前
milvus 是最火的那个
wupher
177 天前
写个简单的测试集评估一下呗。当然也要结合你的应用场景,比如你想弄个简单的客户端程序,弄个 ES ……

同样,你要部署于阿里云,opensearch 就是现成的。

如果你用诸如 LangChain / LlamIndex 连接上述库写个测试不难的。
ck65
177 天前
已经熟悉 pg 了,直接用了 pg + pgvector
lekai63
177 天前
看你数据量,10w 以下 pg+vector 没啥问题。

然后你可以参考 dify 的选择看:他们之前是 weaviate ,现在说是推荐 qdrant 。
https://docs.dify.ai/v/zh-hans/getting-started/readme/features-and-specifications

他们在一个 issure 中似乎提到了切换的原因,但我懒得去翻连接了
B1acKy1in
177 天前
个人推荐 Milvus 性能很可以的
mumbler
177 天前
大项目用 Milvus ,小项目用 sqlite+faiss, 单文档用 csv+numpy
bybyte
177 天前
没人提 qdrant 吗
happyxhw101
177 天前
实际项目下来 es 最佳,pgvector.rs 其次,mivlus 等专门的向量库通用性太差,需求稍微复杂一点都不支持,而且做到后面往往需要混合搜索(传统搜索+向量搜索),这种 es 无敌

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1035318

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX