分享：如何实现一个高效率的查重系统？顺带问问各位 V 友大牛有没有更好的实现方式

因为最近做了个小项目，是一个站内查重系统(就是提交一个文档，判断这个文档与已有文档的重复率)，因为预算不多，所以我想了个简单的实现方式：
1，把待查重的文档的前 N 字（比如前 300 字），拆解为 10 个句子，分别去站内搜索，得出一个疑似重复度高的集合。
2，把疑似集合的前 N 字与待分析文档，分别建立字表做准确分析，得出重复率百分比。

这个项目，开发周期一周，检测效果还行，但就是效率有点慢，百来万的数据量，每一个文档的检测需要几秒，而且还不是全文比对，做个了折中，检测前 N 字的做法。

各位 V 友大牛有没有更好的实现方式？

siyemiaokube

2021-02-17 03:42:17 +08:00

随便 yy 了一下：
词袋记录常见词，给站内文章打 tag，分别建索引

然后把 input 随便剪一剪，分别词袋，根据 tag 对应的索引列表比对？

sampeng

2021-02-17 08:42:46 +08:00

每个文档提交的时候酸一个向量值。查重就是比一下得事。应该飞快。比你查前 300 字，拆句，搜索快 n 倍。算法不超过 100 行代码

jeeyong

2021-02-17 09:20:05 +08:00

jieba 分词, 把所有得词标号, 如果没有, 给一个新的.
之后整篇文章获得一个类似[0, 25, 37, 178, 3578]得数组, 就是 2 楼说的向量了..
后面不会了..谁来给我补补课..

laminux29

2021-02-17 11:19:35 +08:00

查重就没办法高效率，高效率的查重准确度不高。连谷歌处理这事都是砸钱去用空间换时间，没钱就只能消耗时间。

taowen

2021-02-17 15:08:29 +08:00

https://twitter.com/slimsag/status/1360136379301199872 How do you check for existence of a key in a set with 100M keys, in only 125ns? Using Xor Filters

kwklover

2021-02-17 16:00:14 +08:00

@sampeng
向量的比较真的有那么高效？一百万多数据，先得建立一百多万的向量，然后每个文档与一百多万的向量做比较，效率真的能飞快？

刚开始的时候，也从网上看过一些文章，比如谷歌工程师写的按余弦夹角理论。但感觉实现起来比较复杂啊。

@jeeyong
分词的方式，依赖词库的分词方式，往往不太准确，结果就差别很大了，效果未必准确，小样本下测试偏差较大，大样本下没做测试，最后改为不分词，直接比较字。

kwklover

2021-02-17 16:04:56 +08:00

@jeeyong
我也不是专业 NLP，如果建立向量速度快，比较速度快，倒是可以研究一下。
通过搜索的方式+字表比较的方式也能解决问题，就是建立 Lucene 索引的过程也是很吃资源，很耗费时间的，不过就是搜索快。

kwklover

2021-02-17 16:34:00 +08:00

@ntest
网上搜索了一下 SimHash 的资料，大概就是给每个文档建立一个 Hash，然后比较，所以比较的实现方式决定了最终的效率，不过 SimHash 可以计算出相似，但是具体相似多少，没法得出。

dream4ever

2021-02-17 19:04:28 +08:00

吴军当年在谷歌黑板报上就写了相关的文章，印象中是用矩阵运算之类的方法解决的，感兴趣可以搜搜。

sampeng

2021-02-17 20:33:35 +08:00

@kwklover 又不是没次都是建 100 万次…每次入的时候计算一次这个新文档而已，就是第一次慢

kwklover

2021-02-17 21:13:15 +08:00

@jeeyong 不是默认，本来就是小打小闹的，欢迎大牛提供好的思路，目前的解决方案，解决百来万级的数据查重，勉强够用，再上一个量级，比如千万级数据量，那肯定慢死了，就是想征集一下不同的思路和方案。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/753617

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.