请问有快速和准确的汇总长短文相似文章的方法吗?

2020-06-24 10:39:02 +08:00
 naldo0193

需要汇总改动少于 30%的文章(或者说相似到达 70%不包括标点符号),请问有这样的方法吗?

1862 次点击
所在节点    Python
5 条回复
ygtq
2020-06-24 12:00:07 +08:00
google 一些相似度匹配算法,有挺多的。 我用过一个 simhash
fanfou
2020-06-24 14:51:57 +08:00
是的,有一些文本相似度匹配的库。
bigboNed3
2020-06-24 16:25:18 +08:00
这个感觉最长公共子序列可以啊
return len(longest_common_subsequence(s)) > 0.7 * len(s)
joApioVVx4M4X6Rf
2020-06-24 17:56:53 +08:00
结巴分词,集合交集,取百分数
lithbitren
2020-06-25 10:31:34 +08:00
最长公共子序列要用的话,得回溯除出所有连续的公共序列,过滤掉重复几个字或十几个字的,然后再加总求百分比,直接求只能求出最长的那个长度,多个短公共序列是不能直接得出的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/684361

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX