求问一个简单的数学模型,用来筛选文章质量

2016-12-25 21:40:00 +08:00
 cqcn1991

非广告....

我的小网站, 是个人用来抓取、过滤出有价值的文章的. 核心的思路是用 Pocket 的标记量来代表文章的价值。临到 2016 年年末了,想出篇总结,给看看 2016 年有什么好的文章,这样大家要是有错过了的,也可以读一读

那么,问题来了:只按 Pocket 的标记量,肯定有失偏颇。因为大的订阅站,标记的人就很多。以前抓 NY Times ,就是太多 pocket 标记数量,影响极大。

个人的想法:

1. 考虑每篇文章,偏离来源网站平均水平的程度

比如一个网站可能出了一篇爆款文章,高出其他文章很多,那么这篇文章的价值可能就比较大

2. 发帖频率

如果两篇文章 pocket 标记量相同,那么更新频率低的源站的文章可能更好

3. 按来源进行加权

比如科技媒体的水文比较多,那么得分可以乘个 0.8. 科技公司、个人博客的就不折减

4. 我网站上的读者点击率

这方面不知道有没有现成的东西可以用?感觉我自己做会比较民科....

另外,有没有可能根据文章内容关键字,自动分类、加标签?比如加上设计、创业、硬件,金融等等标签

1210 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/330080

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX