请教数学或算法大拿一个文章相关度和质量评分以及归一化的算法问题

2013-10-10 14:35:50 +08:00
 echoflying
已经有的数据:

给定关键字有一个算法,计算出一片文章与关键字的相关度 n(n>=0,几百或几千),若干篇文章的相关度基本为正态分布,一篇文章相关度没有一个上线值

根据一定算法获得文章的质量0~m(m>=0,几百或几千),若干篇文章的质量分布也基本为正态分布,一篇文章质量分没有上线

问题:

1 如何将相关度、质量评分归一化到一个统一的范围(如0~1000),文章的分布对归一化应该如何影响一直想不明白

2 相关度、质量数据如何整合为一个合理的评分
3530 次点击
所在节点    程序员
8 条回复
superhack
2013-10-10 19:34:44 +08:00
威尔逊置信区间?
echoflying
2013-10-11 10:17:54 +08:00
谢谢superhack同学。

找了几条参考资料,放在这里备忘:

统计中的置信和惩罚 http://www.zhizhihu.com/html/y2013/4151.html

基于用户投票的排名算法(五):威尔逊区间http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html
echoflying
2013-10-11 10:24:33 +08:00
再加一条:

How to rank products based on user input
http://masanjin.net/blog/how-to-rank-products-based-on-user-input
echoflying
2013-10-11 11:07:06 +08:00
研究数学的时间到了:

统计数据归一化与标准化
http://blog.csdn.net/ding89629/article/details/7410191
echoflying
2013-10-11 13:50:56 +08:00
echoflying
2013-10-11 16:45:30 +08:00
百分等级是另外一个有趣的概念:

http://wenku.baidu.com/view/e7ae720f52ea551810a687b4.html
echoflying
2013-10-11 16:59:07 +08:00
关于Z-score和百分等级,这篇比较直白(请剔除中间关于教育XXXX的内容)

http://baike.baidu.com/view/85419.htm
echoflying
2014-09-22 17:08:39 +08:00
补两篇相关的文章备查:

Reddit 的排名算法原理
http://www.oschina.net/translate/how-reddit-ranking-algorithms-work

How Hacker News ranking algorithm works (看评分如何根据时间老化)
http://amix.dk/blog/post/19574

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/85097

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX