我们有很多用户的页面浏览数据,需要做一个推荐系统(猜你喜欢),但用户和页面浏览数据量特别大,一般用什么模型好?

2015-03-30 18:09:45 +08:00
 alexapollo

像小说和视频都是百万量级的,每天新增的url也不多
而我们这数据量特别大,有啥好方法吗?

5857 次点击
所在节点    程序员
36 条回复
O14
2015-03-30 18:55:36 +08:00
给页面加tag,根据用户的页面浏览数据计算用户偏爱的tag, 推荐tag相似的页面.定时做这些统计,将计算出来的页面保存在表中
erse
2015-03-30 19:16:10 +08:00
关注这个问题
Tianpu
2015-03-30 20:38:51 +08:00
有来路吗?造关系链
有用户属性吗?区分不同用户

两个维度交叉下,大致够用了吧
babyname
2015-03-30 21:34:42 +08:00
mahout
qiayue
2015-03-30 22:10:08 +08:00
最简单的就是向喜欢 A 的人推荐其他也喜欢 A 的人喜欢的内容 B
sleeperqp
2015-03-30 22:22:54 +08:00
user多还是item多
页面浏览数据量更偏向计算权值吧
alexapollo
2015-03-30 22:35:16 +08:00
@O14 tag系统已经做好了,基于tag推荐是不是等同基于内容推荐?但有个问题,假如用户1亿,url也是1亿,那么这个用户矩阵感觉很大?要算1亿*1亿的数据量?
还有,除了cosine,相似度算法你觉得应该用啥?
alexapollo
2015-03-30 22:35:44 +08:00
@Tianpu 关系链数据比较难搞,用户属性你指的是哪方面?
alexapollo
2015-03-30 22:36:10 +08:00
@babyname 有关注,但还没有用上,有啥相似的case吗?
alexapollo
2015-03-30 22:36:25 +08:00
@qiayue 基于user的CF?
alexapollo
2015-03-30 22:37:06 +08:00
@sleeperqp 权值指的是?
@qiayue 还有一点,用户量和url量都很大,CF能跑得动吗
ligyxy
2015-03-30 22:58:47 +08:00
@alexapollo 确实是高维稀疏矩阵,肯定要降维
sleeperqp
2015-03-30 23:09:54 +08:00
@alexapollo 额 你的item是网站吗? 还是什么
权值是后面考虑的问题
比如说你一个人经常去体育类的网站 那么体育类的权值就高
alexapollo
2015-03-30 23:13:41 +08:00
@ligyxy 有什么好的降维方法吗?我之前咨询过几个同学,有一些learning to rank的想法,不过我对这块也不大熟
alexapollo
2015-03-30 23:14:24 +08:00
@sleeperqp 恩,我现在是根据PV来算的,每个PV都加对应tag的权重,item是url
sleeperqp
2015-03-31 08:45:59 +08:00
@alexapollo 如果item是url的话 我觉得你不要直接用推荐系统的常用算法 一定要用的话还是基于user比较好
我个人觉得倒是可以借用下信息检索的思想 从搜索引擎的角度来考虑这个问题
alexapollo
2015-03-31 10:12:18 +08:00
@sleeperqp 我打算先去掉点击量小的url,或者一些其他方法filter掉数据来降维,或者从tag的角度出发
你是做搜索引擎相关吗?指点一下?我觉得这个想法挺靠谱的
liuhaotian
2015-03-31 10:23:53 +08:00
Followed.
kimmykuang
2015-03-31 10:26:20 +08:00
首先是不是先降噪,比如不小心点到“宝刀屠龙点击就送”这种item的可以干掉;其次可以尝试对url进行归类,其实归类的过程中就可以得到用户大致浏览过的类目,对于类目可以加tag,weight啊之类的;有了数据的清理之后,再用上相似算法,比如最简单的线性算法:A用户与B用户经常浏览的类目有70%相近,那么是不是可以给B用户推荐A用户喜欢的其余30%,基于这个算法还有很多变种,比如可以基于权重进行调整。
alexapollo
2015-03-31 10:31:28 +08:00
@kimmykuang 嗯,想法就是数据清洗+聚类+usercf?
看起来靠谱。。。有实践过吗?不知道效果好不好?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/180385

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX