如何比较两个列表的相似度

2019-03-29 10:18:07 +08:00

sunhk25


现在想到的方法是如下
--方法 1--
A 列表：['aa', 'bb', 'cc']
B 列表：['bb', 'cc', 'ff', 'kk']
因为'bb'和'cc'相同所以有
A:2/3
B:2/4
所以 AB 相似度等于：(2/3 + 2/4) / 2 = 0.583
假如有 C 列表：['bb']
同样与 B 列表比较，同理 BC 相似度等于：(1/4+1/1) / 2 = 0.625
然而 AB 相似度<BC 相似度却不太理想

--方法 2--
另外一个方法就是分母用元素的合计数
AB 相似度等于：(2/(3+4) + 2/(3+4)) / 2 = 0.286
BC 相似度等于：(1/(4+1)+1/(4+1)) / 2 = 0.2
结果：AB 相似度>BC 相似度

所以正确的方案应该用数学上的那些手段来实现呢？

6218 次点击

所在节点

Python

13 条回复

youngxhui

2019-03-29 10:22:40 +08:00

使用余弦距离

aijam

2019-03-29 10:26:51 +08:00

比如 edit distance，TF/IDF

SeaRecluse

2019-03-29 10:28:03 +08:00

只比较两个交叉熵，多个用余弦距离

largecat

2019-03-29 10:33:23 +08:00

还有一个
A,B 合起来总共不重复的 5 个元素，共有 2 个，所以 2/5=40 ％

BC 合计不重复 4 个，共有 1 个所以 1/4=25 ％

cdcfishzz

2019-03-29 10:57:52 +08:00

方法 2 是不正确的。
假设两个完全一样的列表，预期值为 1。
(3/(3+3)+3/(3+3))/2 ＝ 3/6≠1。

adrianyoung

2019-03-29 11:19:00 +08:00

可以参考一下 BLEU 的惩罚因子
能够解决你提到的方法一的问题

wkc

2019-03-29 11:25:50 +08:00

https://github.com/yanyiwu/simhash 文本相似度计算

adrianyoung

2019-03-29 11:27:58 +08:00

或者两个列表直接构建一个向量空间，算余弦距离

holajamc

2019-03-29 11:38:15 +08:00

In [1]: a = ['a', 'b', 'c']

In [2]: b = ['a', 'b', 'd']

In [3]: def jaccard_sim(a, b):
...: return len(set(a).union(set(b)))/len(set(a).intersection(set(b)))
...:

In [4]: jaccard_sim(a, b)
Out[4]: 2.0

杰卡德相似性