如果设计一个算法:一批图片中,根据每张图片浏览量、收藏数以及回复量来定量排序最有意思的图片?

2017-01-17 14:28:54 +08:00
 Reign

目前有十万张图片,每张图片对应不同的浏览量、收藏数以及回复量,当然这三个量肯定是越大表示这张图片越有意思,但是怎么具体来量化一张图片有意思的程度呢?比如 A 图片浏览量、收藏数以及回复量是 2000:100:10 , B 图片是 900:150:8 , 怎么来具体量化排序 A 图片和 B 图片到底哪个最有意思?

2190 次点击
所在节点    程序员
6 条回复
ParallelMao
2017-01-17 14:47:42 +08:00
设置权值,比如可以设置浏览:收藏:回复 为 1:3:4 然后根据这个比例对应 2000:100:10 计算出来结果,数值越大代表越有意思,当然了这个值可以根据实际情况再做调整
qiayue
2017-01-17 15:13:18 +08:00
menc
2017-01-17 15:21:12 +08:00
@qiayue
ryf 的 ranking model 基本过时了,不再适用于当前需求,这些 model 和公式都太弱了。
ranking 问题是机器学习的一个经典问题。 lz 的问题本质上和图片搜索引擎的 ranking 问题没有区别。

工业界最常用的方法是用 ctr 做训练目标来训练一个模型出来。
mko0okmko0
2017-01-17 15:31:56 +08:00
回覆量可以刷.很难分辨有效量
收藏量大致上准.
浏览量受到机器人影响.大致也准.

我个人的图片网站有做的:
个人图台使用的是参观者都给予惟一 hash.都入后就将该用户 hash 整合在一起.
记录每一张图片在画面上"完整呈现"时的秒数.

分析:
被收藏的图片完整呈现多久被搜藏.延伸题目:马上搜藏跟看很久才收藏的意义.
观看多久算是用户挂网.并排除.
收藏后再次被使用率.
用户回文是否灌水.用户是否有效.
发文者特性比例分析.
回文者特性比例分析.
搜藏者特性比例分析.

此图台利益与使用者利益交叉点.也就是这网站要赚钱又让用户不讨厌或是更喜欢的方法.
如何吸引用户将本网站推荐给他人.

基本上这本来就是一个很复杂的题目.
只能尽可能的收集用户的行为.
在去分析这真的是否有趣.
排序意义不大.
geralt0725
2017-01-17 15:35:58 +08:00
简单解的话就是置顶权重规则来计算,复杂解的话就用机器学习算法训练权重
qiayue
2017-01-17 15:56:03 +08:00
@menc 过时不过时我不知道,但是如果楼主想要快速实现排序功能,那么从这六种排序方法中找一种适合自己的,是最快的方式,也是最省钱的方式。

当然作为研究,去学习一下机器学习没问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/335155

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX