Jaccard(雅卡尔)通常指Jaccard 相似系数 / Jaccard 指数:用来衡量两个集合(或两段文本的词集合等)相似程度的指标,计算方式是交集大小 ÷ 并集大小。取值范围一般为 0 到 1,越接近 1 表示越相似。(也常用于对应的 Jaccard 距离:1 − Jaccard 指数。)
/ʒaˈkɑːr/
Jaccard similarity is useful for comparing two sets of keywords.
Jaccard 相似系数适合用来比较两组关键词的相似度。
In document clustering, we computed the Jaccard index between each pair of articles based on their word sets, then built a similarity graph for community detection.
在文档聚类中,我们根据文章的词集合计算每对文章之间的 Jaccard 指数,再构建相似度图用于社群发现。
Jaccard来自人名,源于瑞士植物学家 Paul Jaccard(保罗·雅卡尔)。他在研究植物群落的相似性时提出了相关的度量方法,因此该相似系数/指数以他的姓氏命名。