“Similarity search” 指“相似性搜索/相似度检索”:在一组数据(如文本、图片、音频、向量表示)中,寻找与给定查询最相近的项目。常见于信息检索、推荐系统与向量数据库(用嵌入向量按“近”来找结果)。也常被称为“近邻搜索”(nearest-neighbor search);在大规模场景下常用“近似近邻搜索”。
/ˌsɪməˈlærɪti sɝːtʃ/
Similarity search helps you find photos that look alike.
相似性搜索能帮你找到看起来相像的照片。
We used similarity search over embedding vectors to retrieve semantically related passages, even when they didn’t share the same keywords.
我们在嵌入向量上做相似性搜索,检索到语义相关的段落,即使它们并不包含相同的关键词。
similarity 来自拉丁语 similis(“相同的、相似的”)的词根发展而来,表示“相似性”;search 源自古法语 cerchier(“寻找、搜寻”)。组合成短语后,字面意义就是“按相似程度去寻找”。