如何判断新闻的价值以及重复新闻的判断

2017-08-15 10:52:44 +08:00

anasplrt34

最近在做一个新闻聚合类网站，发现了个问题.假如说有两个新闻网站上都有同一条新闻，但内容和标题什么的都不是完全一样的，有一些偏差。没法用普通的比对.
那么我该怎么知道这两篇新闻是一样的和怎么从相同的新闻中挑出应该被抓取到聚合类网站的那个呢？

2294 次点击

所在节点

程序员

4 条回复

Morriaty

2017-08-15 11:01:32 +08:00

总的思想是一样的，就是把 document 映射到向量空间，然后计算向量间的 cos。

难点就是怎么在特定的场景下训练合适的 doc 向量。

如果是粗粒度的聚类，tfidf+KMeans 就够了，或者直接 LDA。
但如果是细粒度的新闻去重，tfidf 就完全不够了，词序、同义词等等都是问题。

ipwx

2017-08-15 11:06:22 +08:00

训练一个 seq2seq 模型。通过 unsupervised 训练，用大量语料库让模型能通过低维语义向量来还原正文。然后把这个语义向量拿来做比较怎么样？ cos 距离只是一种距离。如果你把这个语义向量随机变量化，比如做成多维独立高斯，也可以有 log p(z) 的做法。

以上评论是我乱想的，实际上我并没有做过这方面的工作。仅供参考。

onlyhot

2017-08-15 11:11:12 +08:00

我也不懂这些。我就有个疑问，春秋笔法怎么判断出来。

cnwtex

2017-08-15 11:12:54 +08:00

新闻的价值，在于受众，所以你看采用阅读量做投票的今日头条都推荐的什么新闻。当年 digg 和现在的 hacknews 以及 reddit 都采用的是话题分类，登陆用户点击投票的方式，还有类似的 producthunt 这种不是新闻的新闻站。
同一人群，众包方式，才能描述出来新闻对于他们的价值。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/383015

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.