2009年由Netflix发起的Netflix Prize百万美金竞赛,绝对是推荐系统领域最标致性的事件,这次比赛不但吸引了众多专业人士开始投身于推荐系统领域的研究工作,也让这项技术从学术圈真正地进入到了商业界,引发了热烈的讨论并逐渐深入到了商业的核心腹地。
当然,最受益的肯定还是Netflix公司自己,不仅大有取代Amazon成为新一代推荐引擎之王的架势,而且从商业回报本身上看也无疑取得了非常巨大的回报。
7年过去了,Netflix推荐系统的现状如何呢?ResysChina将带来最新的深度解读。
早年举办Netflix Prize竞赛的时候,Netflix推荐系统的主要目标是预测用户对某部影片的评分(1-5分),因为当年Netflix的主营业务还是DVD租赁,打分是Netflix最主要的获取用户反馈的方式。
Netflix虽然仍然在使用着由Netflix Prize衍生出来的算法,但目前Netflix的核心业务模式已经转变为在线流媒体,因此Netflix可以从更多维度去了解用户的使用行为,比如,如何观看(使用什么设备、每天的什么时间,每周的哪天,观看的频度),用户是如何发现视频的,甚至是哪些视频已经推荐给了用户但并未被播放,等等。
Netflix的最新用户数据:注册会员6500万人,每天观看视频的总时长1亿个小时。
Netflix新一代推荐系统的承载形式是「会员首页」,这也是每个会员登录之后的第一页,平均每3小时的视频播放中就有2个小时是从这里发起的。大家都知道,首页几乎是所有产品最最重要的页面,Netflix敢于把首页基于推荐系统来驱动,一来说明他们对推荐系统的重视程度,二来也是表明他们对自己推荐技术的高度自信。
1、Personalized Video Ranker: PVR
这是Netflix推荐系统最核心的部分。基于「基因」的电影推荐主要就是由PVR来完成的,比如上图一中左图的第一行是「悬疑电影」,「悬疑」就是一种基因。PVR是千人千面的,即使同一个基因推荐序列,每个用户看到的影片及排序都是不同的。Netflix推荐系统中PVR的应用极其广泛,它是针对每个用户给出个性化推荐结果的基础,比如和「流行度」算法结合,可以让热门推荐也变得个性化起来。
2、Top-N Video Ranker
上图一中右图第一行的「Top Picks」就是Top-N算法最典型的应用。一定程度上可以认为,Top-N是PVR算法的一个特例。PVR关注的是每个推荐序列的排序,而Top-N的核心目标是从所有序列中找出来最最相关的。可以简单理解为,Top-N的计算范围仅限于每个推荐序列头部的数据,优化目标也是从所有推荐序列中优中选优。
3、Trending Now
Netflix发现近期趋势(从几分钟到几天)是预测用户观看行为的有效因子,而且如果能够与合适的个性化方法结合起来的话效果还会更好。Netflix使用trending ranker算法来生成Trending Now的推荐结果。
这个算法在两类场景里尤其适用:1)每隔几个月(比如每年一次)会重复,且每次发生都会有一波明显的短期效应的,比如每年情人节期间的浪漫爱情片;2)突发的、短期的事件,比如媒体大规模报道了一场在人口密集区域登陆的飓风,就会引发一波对于飓风及其他自然灾害相关的纪录片和影片的关注。上图二左图的第二行为Trending Now的示例。
4、Continue Watching