阿里最近搞了个大数据竞赛,赛题在这里:
http://102.alibaba.com/competition/addDiscovery/gameTopic.htm
阿里提供了4个月的用户数据,格式是这样的一个EXCEL表:
11158000 5043 0 5月9日
11158000 5043 0 7月22日
11158000 5043 0 7月14日
11158000 5043 0 5月11日
11158000 5043 1 5月5日
第一列是用户ID,第二列是商品品牌ID,第三列是用户行为(0,1,2,3分别代表点击,购买,收藏,购物车)。需要我们预测下个月的用户购买行为,评价标准是准确率和召回率以及两者的调和平均值。
我试了几个方案,发现直接将收藏和购物车作为用户购买行为的依据却是最好的方法,简单粗暴,难道这就是所谓的奥卡姆剃刀?不过,也有可能是我另外的方案设计得不好。
熟悉推荐算法的同学给点建议吧,最好要简单点,实现起来比较方便,代码量在几百行级别最好,毕竟只是个竞赛呢。谢过啦。
http://102.alibaba.com/competition/addDiscovery/gameTopic.htm
阿里提供了4个月的用户数据,格式是这样的一个EXCEL表:
11158000 5043 0 5月9日
11158000 5043 0 7月22日
11158000 5043 0 7月14日
11158000 5043 0 5月11日
11158000 5043 1 5月5日
第一列是用户ID,第二列是商品品牌ID,第三列是用户行为(0,1,2,3分别代表点击,购买,收藏,购物车)。需要我们预测下个月的用户购买行为,评价标准是准确率和召回率以及两者的调和平均值。
我试了几个方案,发现直接将收藏和购物车作为用户购买行为的依据却是最好的方法,简单粗暴,难道这就是所谓的奥卡姆剃刀?不过,也有可能是我另外的方案设计得不好。
熟悉推荐算法的同学给点建议吧,最好要简单点,实现起来比较方便,代码量在几百行级别最好,毕竟只是个竞赛呢。谢过啦。
npp里有个显示所有字符的功能