Python +mongodb：如何快速计算大量向量近似度

语料库 20 万句的向量（ 250 维）值放到 DB 后，python 查询指定文章最相似的 TOP50。
相似度的计算在用 numpy，计算时间是 2+秒，但是从 DB 把数据拿到内存就需要 7 秒。
降维之类的方法不太懂，请教各位正常该如何实现相似检索？

chengxiao

2019-07-04 16:22:04 +08:00

250 维....这不是数据库能处理的吧?

lunaticus7

2019-07-04 16:33:33 +08:00

`但是从 DB 把数据拿到内存就需要 7 秒` 是指取 20000 * 250 向量？
特征向量为什么要存 mangoDB 嘛，这点量也没多少，直接塞内存，精度可以转成 np.float32 甚至 np.float16，能省很多内存，这些精度做检索够用

解决了了从数据库读特征向量的问题后，就可以优化检索计算了

大方向就是分级检索：先用低运算量低精度的 metirc （句向量的话直接 cosine 就行）快速检索出一个较大的候选集，然后在候选集内部再用正常的高精度低速 metirc 得出最终结果

懒得折腾可以直接上 fb 家的 faiss

PS.你什么算法啊，20w 数据相似度居然要算 2s ？

sunhk25

2019-07-04 16:59:09 +08:00

@lunaticus7
谢谢意见，7s 是指从数据库拿数据
现在就是简单的计算内积，20 万的话就要 1G 内存
250 * 20 * 10000 * 24 / (1024 * 1024) = 1144.4MB

owenliang

2019-07-04 17:58:20 +08:00

不行就把计算摘出去，换个 c++/golang 做一下，1 秒内肯定没有问题。

necomancer

2019-07-04 22:56:28 +08:00

numpy 的 dot 和 einsum 都比较慢，你可以考虑用 numba 的 guvectorize
@guvectorize([(float64[:], float64[:], float64[:])],
'(n),(n)->()', target='parallel')
def my_inner_prod(a, b, ret):
tmp1 = tmp2 = tmp3 = 0
for i in range(a.shape[0]):
tmp1 += a[i] * b[i]
tmp2 += a[i] * a[i]
tmp3 += b[i] * b[i]
ret[0] = tmp1 / (tmp2 * tmp3) ** 0.5
这个是 cos(theta)，如果不除以模量则只要 tmp1 就可以了
可以快很多。只要向量维度是对齐的，比如 (100000,250) . (100000,250) -> (100000,)
或者(100000,250) . (1,250) -> (100000,)
降维是不是可以考虑 PCA?

necomancer

2019-07-04 22:59:55 +08:00

In [29]: a = np.random.random((200000,250))

In [30]: my_inner_prod(a,a)
Out[30]: array([1., 1., 1., ..., 1., 1., 1.])

In [31]: %timeit my_inner_prod(a,a)
49.3 ms ± 850 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

I7-3687u