Feed 去重

2015-05-02 18:32:42 +08:00
 alansalexer

订阅多个资讯网站以后,会发现部分资讯是重复的。相似的资讯,A/B/C 三个网站的feed流里都有。
有没有什么工具是可以将feed流去重或按关键词分一下组,再展示给用户呢?

2095 次点击
所在节点    问与答
6 条回复
zts1993
2015-05-02 20:37:12 +08:00
去重复的话,检测文本是否相似吧,最简单的是VSM

关键词分组最简单就是用朴素贝叶斯分类器了

这两个自己写代码应该不复杂
Stof
2015-05-02 21:54:13 +08:00
目前来说成品没有。
whtsky
2015-05-02 22:56:45 +08:00
买个 Fever ,看 Hot
myoula
2015-05-02 22:58:03 +08:00
百度有个算法,也比较简单。
把内容按照一句一句的长度进行排序,然后把每句的hash值保存起来,根据hash值来看相似度。
据说这种方式 80%左右的几率避免重复。
binux
2015-05-02 23:01:07 +08:00
很久以前就有过这样的想法,还能给 yande.re Konachan.com 去重就更好了
Daniel65536
2015-05-02 23:52:19 +08:00
fever有,很智能。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/187971

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX