阿里的大数据赛题

2014-03-19 20:52:50 +08:00
 buptlee
阿里最近搞了个大数据竞赛,赛题在这里:
http://102.alibaba.com/competition/addDiscovery/gameTopic.htm
阿里提供了4个月的用户数据,格式是这样的一个EXCEL表:
11158000 5043 0 5月9日
11158000 5043 0 7月22日
11158000 5043 0 7月14日
11158000 5043 0 5月11日
11158000 5043 1 5月5日
第一列是用户ID,第二列是商品品牌ID,第三列是用户行为(0,1,2,3分别代表点击,购买,收藏,购物车)。需要我们预测下个月的用户购买行为,评价标准是准确率和召回率以及两者的调和平均值。
我试了几个方案,发现直接将收藏和购物车作为用户购买行为的依据却是最好的方法,简单粗暴,难道这就是所谓的奥卡姆剃刀?不过,也有可能是我另外的方案设计得不好。
熟悉推荐算法的同学给点建议吧,最好要简单点,实现起来比较方便,代码量在几百行级别最好,毕竟只是个竞赛呢。谢过啦。
6122 次点击
所在节点    程序员
23 条回复
heliumhgy
2014-03-24 09:52:18 +08:00
协同过滤算法
heliumhgy
2014-03-24 10:02:11 +08:00
据说效果不好
buptlee
2014-03-25 09:46:24 +08:00
@heliumhgy 恩,我们就用简单的打分办法,效果却还可以,F1值有接近6%吧,打算调调参数,等到season2再上算法了,。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/105026

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX