nn第一部真正由乔布斯本人授权的自传nSteveJobs…

艺术品

人们在Netflix上观看的电视节目中,超过80%是通过该平台的推荐系统发现的。Netflix使用机器学习和算法来帮助打破观众的先入之见,找到他们最初可能并不会选择的节目。

为了做到这一点,Netflix关注的是内容中微妙的线索,而不是依靠广泛的类型来做出预测。推荐基于“同品味用户群”Netflix在算法中所运用的数据可以分为两种——隐性数据和显性数据。显性数据就是用户字面上所表达的意思,比如用户给剧集《皇冠》点赞(athumbsup)了;隐性数据实际上是用户行为数据,用户没有明确地表明“我喜欢某一部剧”,但花了两个晚上就把这个剧全看完了。关于显性数据,我们之前已经分析过(相关链接:Netflix革新用户评价体系:点赞取代星级后,再移除用户评论)。

而为了完善自己的内容推荐系统,Netflix不止在显性数据方面发力,因为事实上大多数有用的数据都是隐性的。近日,Netflix负责原创内容的副总裁CindyHolland分享了公司内部在做许多有关内容和用户推荐的决策时所考虑的核心因素。她表示,Netflix做内容和用户推荐的决策,并不是基于广泛的人口统计数据,这些是广告商所关心的,而Netflix并没有广告;相反,Netflix是基于“同品味用户群(tastecommunities)”来决定是否订购一部新剧以及向用户推荐什么样的内容。“同品味用户群”即喜欢看相同内容的用户群体,Netflix目前已识别出2000个这样的用户群。

这些同品味用户群也可能会喜欢看似完全不同的内容,比如,Netflix的算法发现单口喜剧演员DaveChappelle的粉丝群与霍金传记电影《万物理论》的粉丝群之间存在着令人意想不到的联系。”CindyHolland说。《万物理论》之前,Netflix根据用户的地理位置进行内容推荐,比如,德国人喜欢看的内容可能与南美人喜欢看的内容有所不同,但Netflix的产品副总裁Yellin去年在接受采访时表示,“我们越来越发现这是无稽之谈。”所以,Netflix转而根据“同品味用户群”来进行用户推荐。

“同品味用户群”形成的三大基础假设同品味用户群是一个有三条腿的凳子(这个比喻也是蛮奇怪的,但人家就是这么比喻的)。这个凳子的三条腿分别是Netflix的用户行为数据、节目内容标签数据和机器学习算法。虽然Netflix在全球拥有超过1亿的用户,但如果将每个用户的多个用户配置文件计算在内,那活跃的用户配置文件总数将达到2.5亿左右。“我们从这些资料中看到的是以下类型的数据——人们看了什么,之前看了什么,之后看了什么,一年前看了什么,最近看了什么,每天什么时候看。

”这些数据构成了凳子的第一条腿。凳子的第二条腿是指旨在理解节目内容的数据。这些数据基础构建由数十名内部员工和自由职业者组成,他们观看Netflix平台上的每一场节目,甚至每一分钟的节目,并将其贴上标签(tag)。从作品的思想性,到演员整容的完整性,标签范围很广。

“我们把所有这些标签和用户行为数据结合起来,然后使用非常复杂的机器学习算法,找出最重要的、我们应该重视的,”根据Netflix产品副总裁Yellin的说法,他们会沿着用户收看的轨迹去摸清楚用户的品味。“如果一个用户昨天看了某个内容,这有什么关系?这和他们一年前看的内容的量相比,是两倍多还是十倍多?和一个月前相比呢?如果某个内容他们只看了十分钟就放弃了,或者花了两晚一下子全看完了,我们该如何权衡这些?这就是机器学习的意义所在。”“同品味用户群”的决策作用和用户影响Netflix分析这些“同品味用户群(tastecommunities)”--内部用户们的观看习惯,并根据从这些群体收集的数据开发新的节目。

友情链接: