[1984 式瞎扯] 百家号事件想到的, 关于中国特色的搜索(不限于)的协同过滤推荐

跳出来想想主流的协同过滤推荐的算法真是充满了"平等"的气息, 只关注 user/item<-->user/item 的关系而不考虑 user 的特征和 item 的特征, 也就是基于假设: user 和 item 是不分级(hierarchy)的但是这貌似和中文互联网环境区别太大了中文互联网环境一来顶部用户底部用户极端割裂, 二来因为经济现状和其他原因顶部用户的价值溢价又远远大于其他市场的顶部用户相对底部用户的溢价所以一个多数投票的算法下, 过于割裂和过于庞大的底层用户会更严重的牺牲顶部用户的体验, 而同时这又是极为优质的用户.

不知道是不是出于隐私考虑但是即使给 user 基于其他属性的标签在脱敏了的推荐算法管道处理以后, 标签也应该是脱敏的啊

举个例子, 看百家号的(可能是绝大多数,主观上?) 和看百家号标题文风就想吐的根本就没有什么协同可言, 具体到例子里, 两个群体搜 xxx 电影的影评, 想看的内容是完全不一样的, 仅仅因为百家号的"震惊, 变形金刚竟然是中国制造的骄傲"和豆瓣的"从变形金刚扯到人类异化"都包含关键词"变形金刚"而推荐, 但这两者对于读者是完全没有实际意义上的"相似性"的. ( 用统计的视角说就是, 百家号的 xxx 影评和豆瓣的 xxx 影评, 一眼看过去协相关性(correlation)很高, 所以你就给推荐? 那后果就惨了, 去掉对象:该电影的偏相关 /半偏相关系数(semi partial correlation)是低到发指的, 那一个严重 false positive 的推荐很容易超过阈值而引到一个立即发生的 churn/用户流失的结果.)

结合亚洲的等级制文化和中国漠视隐私, 尤其是模式判别性的隐私(distinctive 的, 与记录性的相对, 后者已经开始逐渐有意识保护了)的环境, 其实有个办法貌似很好, 就是在广泛的 MAC address, imei, 手机号的情况下很容易把这些识别用户的属性连接起来给每一个独特用户一个先验性的多维度的标签, 举个例子, (社会等级, 教育层次): "金融男 /女(1,1), 包租婆(1,0), 乡村教师(0,1), 厂妹(0,0)" 一类的, 然后在基于这个标签, 按标准化后的 RMSE 的距离给一个递减的系数, 这样来比如厂妹看的 xxx 电影的影评,因为和厂妹和金融男的距离是最大的, 系数就直接到 0, 这样厂妹爱看的关于 xx 话题的东西就不会因为协同推荐污染到金融男的时间线, 反过来也是一样. 后者无所谓,因为单位厂妹的用户价值很低, 而且弹性(elasticity)比较低,不会看到不想看的就退出. 但前者就很重要了, 用户价值又高, 又因为挑剔的特质 /更多选择权等等弹性很高, 一个不喜欢的推荐就用户流失了.

早上刷牙时随便想的, 身边也没什么人适合讨论这个, 就发过来交流一下, 看看能不能跳出思维限制

[1984 式瞎扯] 百家号事件想到的, 关于中国特色的 搜索(不限于)的协同过滤推荐

[1984 式瞎扯] 百家号事件想到的, 关于中国特色的搜索(不限于)的协同过滤推荐