案例分享:美国公司Netflix依靠大数据打造流畅体验

【数据猿导读】 Netflix是一家美国公司,在美国、加拿大提供互联网随选流媒体播放,定制DVD、蓝光光碟在线出租业务。该公司成立于1997年,总部位于加利福尼亚州洛斯盖图。公司能够提供Netflix超大数量的DVD,而且能够让顾客快速方便的挑选影片,同时免费递送

案例分享:美国公司Netflix依靠大数据打造流畅体验

2007年的1月16日,Netflix推出了一个新功能:会员可以在浏览器上直接在线观看电影,而无需再等待Netflix的红色邮包。该项目对Netflix和娱乐行业来说是一个标志性的转变。如今,Netflix每个月有超过10亿小时的电影流推送给来自40多个国家的4800万名会员。同时,Netflix占据了美国超过三分之一的高峰期下行网络流量。这使其获得了大量的数据。

Netflix利用大数据进行深度分析和算法预测,以此为会员提供最好的观影体验。根据用户的观影偏好来做个性化推荐就是一个很好的例子。Netflix甚至为此举办了比赛——Netflix大奖赛(始于2007年)。Netflix正在关注的另一个领域是流媒体体验质量(QoE),即会员在Netflix观影时的用户体验。以大数据为基础的数据科学和算法模型对提升质量体验大有裨益。

Netflix致力于提供杰出的流媒体服务并大力发展流算法和网络技术(如Netflix建立的开放连接内容交付平台)以提供良好的流媒体体验质量。Netflix凭借流媒体服务在2012年赢得了“黄金档艾美工程奖”(Primetime Emmy Engineering Award)。为了更专注于“流科学”, Netflix建立了一个新的团队,通过研究数据算法,来改善流媒体体验质量(QoE)。

本文会简明地概括Netflix需要解决的问题,包括:

·了解流体验质量对用户行为的影响;

·为每个会员创造个性化的流体验;

·基于会员的观看记录决定在边缘服务器缓存什么电影和节目;

·根据观看记录和用户反馈在目录中提高Netflix内容的技术质量。

流体验质量影响用户行为

用户行为是指用户与Netflix交互的方式。Netflix使用数据去理解和预测这些行为。例如,一个产品中细微的改变会对Netflix用户的观看时长产生多大影响?为了提升流体验,Netflix研究了对用户行为产生影响的体验质量指标。其中一个指标是再缓冲率,表征的是暂停视频播放以等待数据下载至本地缓存的频率。另一个指标,比特率,是指画面质量——比特率越低,画面越模糊。再缓冲率和比特率之间的关系很有趣。由于网络容量有限,过高的比特率将会增加容量达到极限的风险;而当本地缓存中的内容播放完,又不得不暂停视频播放以重新缓冲。怎么样在这中间达到一个平衡呢?

还有很多指标可以用于描述用户的体验质量,但是各项指标对用户行为的影响,以及指标之间的权衡都需要Netflix深入的研究。更专业地讲,Netflix需要确定一个映射函数用以量化和预测用户体验质量的变化是对用户行为的影响。这一点非常重要,它可以让Netflix更好的调整算法,高效提升用户观影感受。

提升流体验

Netflix的流媒体供应链:在各环节优化流体验

当会员浏览Netflix时我们应如何利用数据提供最佳用户体验?

创造个性化流媒体体验

方法之一是当用户播放影片时观测算法在实时和近实时下运行情况,以此选择相应的视频比特率、服务器地址等等。利用上文所述的映射函数,对大量数据进行分析,可以在总体上优化用户体验,甚至可以通过函数分析每位会员的“体验质量偏好”,以提供个性化流体验。此外,为用户提供个性化体验也要考虑用户网络情况,设备,地理位置等等。比如,用户在家庭高速网络中的需求和用户体验与在低速手机网络中有很大不同。

优化内容缓存

大数据在内容交付端也有一系列作用。Netflix拥有一个名为“开放连接”的内容交付平台,这一平台用于管理与Netflix合作的ISP(网络服务供应商)。ISP可以通过公共网络交换机直接连接到Netflix的服务器,或者由ISP代理提供Netflix的服务。这里的核心理念在于缩短用户与内容间的网络距离从而为会员提供良好的用户体验。

值得思考的是如何利用会员在Netflix上的浏览行为优化内容缓存。Netflix拥有数百万会员和数量庞大的产品,然而用户设备存储能力有限,如何优化内容缓存才能在会员观影时不超出本地缓存能力。

提升内容质量

提升用户体验的另一种方法是进行内容质量控制。比如电影和节目中的视频、音频、一般字幕、可隐藏字幕等都可引入这一过程。在一部视频放置到内容服务器之前,Netflix会对数字化视频进行编码和质量检验。品目繁多的产品被译成多种语言传播到各个国家。确保公司提供的影片和节目没有字幕错误、编码错误等质量问题着实是一个挑战。

除了内容质量检测之外,Netflix也会倾听会员对于质量问题的反馈。然而用户的反馈是五花八门的,可能包含了一些跟质量不相关的问题(比如由于网络连接不畅导致的网络错误)或者是关于会员口味和偏好的反馈。说实话,识别真正有效的反馈无异于大海捞针。

Netflix通过结合会员反馈意见和与浏览行为相关的内在因素,建立模型来预测某一特定的内容是否存在质量问题。例如Netflix可以检测观看模式确认产品质量是否有问题。如果在一个节目的某个时间节点观看量大幅下降并且会员提供了相关反馈信息,那么这段节目很有可能存在质量问题。运用自然语言处理和文本挖掘技术可以构建强大的机器学习模型。这一模型可用于提升线上内容的质量,还可以利用会员提供的信息建立起质量控制的良性循环机制,更换不符合会员期望的内容。Netflix正在向国际扩张业务,随着新的影片和节目的增加以及翻译语言的增加,质量控制变得更有挑战性。

以上是Netflix在创新使用数据建立模型和算法为每位会员提供卓越观影体验的几个例子,在流媒体领域还有许多其他问题可受益于数据科学。


来源:Intetix

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

相关精彩内容推荐

我要评论