另一个角度看大数据:数据、大数据与欧洲杯

【数据猿导读】 数据绝非枯燥无味,数据显示成就和潜能,数据代表胜负的趋势,数据还是浮夸的资本和球迷之间争论的终结者。美国有的专业棒球杂志上没有煽情的报道和图片,全是各种数据表格,一个有极客精神的资深球迷光看这些数据就能达到高潮

另一个角度看大数据:数据、大数据与欧洲杯

体育比赛大概是公众接触到的数据密集度最高的领域了。从几十年前宋世雄解说中国女排比赛,我们就习惯了听取各项数据:这名球员年龄多少,身高多少,她今天已经得了多少分,中国队的得分中发球多少分,扣球多少分,对方失误送了多少分等等等。一边欣赏感性的运动之美,一边盘算实时数据,就好像后来的人打电子游戏一样。

这些数据绝非枯燥无味。数据显示成就和潜能,数据代表胜负的趋势,数据还是浮夸的资本和球迷之间争论的终结者。美国有的专业棒球杂志上没有煽情的报道和图片,全是各种数据表格,一个有极客精神的资深球迷光看这些数据就能达到高潮。

当然那时候数据就叫数据,并不像今天这样有点统计数字就敢叫“大数据”。然而现在毕竟是所谓“大数据时代”,那么在这个时代,要把数据玩到什么程度,才算没有辜负“大数据”这个称号呢?

首先这意味着用数据预测比赛胜负。这得算是一个古老的行业,博彩公司一直都在这么干。大数据的一个新玩法,就是使用“大量”的数据 — 以本届欧洲杯为例,雅虎公司的科学家有个新创意[1],他们社交网络Tumblr上今年前几个月但凡涉及到欧洲杯参赛球队的对话全都提取出来,一共2400万条,跟雅虎体育存的比赛数据结合起来分析预测。

换句话说这些科学家很重视球迷的群体智慧:球迷说哪个队厉害,没准这个队就真厉害。结果可想而知,英格兰队 — 在球迷中的待遇相当于欧洲的中国队 — 被这个模型高估了:雅虎预测英格兰进四强,事实上英格兰连八强都没进。

雅虎大概没搞明白信号和噪声的区别,不过他们也许仅仅是为了显示自己了解社交网络。一个更理性的预测应该纯粹用比赛数据分析。某精算咨询公司就用几百万次计算机模拟的方法预测法国队的夺冠概率最高[2],其次是德国和西班牙,而事实上进入决赛的葡萄牙的夺冠概率仅列第七位。该公司号称这个预测是不带任何偏见的,但我必须指出这是一个法国公司。

大数据的更高级用法是直接用数据指挥比赛!早在2006年世界杯,德国队守门员莱曼就在对阿根廷的点球大战之前获得一张教练给的小纸条,纸条上是科隆大学50名精英分析出来的阿根廷队队员踢点球的习惯动作和方位,并以此取胜。现在德国足协跟软件公司SAP合作,搞了两套升级版的大数据系统[3]。这回队员和教练不用小纸条了,直接在iPad Pro上实时用图形和视频分析对手每个球员的攻防特点,球队阵型和踢点球习惯。这些新一代球员 — 可能受从小打电子游戏的影响 — 都热爱阅读数据,软件得到了很好的应用,所以德国队一遇到点球决胜还能继续取胜……不过还是没有进入决赛。

其实在我看来,大数据预测和大数据指挥都有一个本质问题:数据只代表以往的经验。人作为一种有自由意志的动物是可以变的!如果你知道我踢点球的习惯 — 更确切地说是如果我知道你知道我踢点球的习惯 — 那我面对你的时候是不是应该改变习惯?难道我就不能多练几种罚点球踢法?事实上,对策论告诉我们,最好的办法是我有时候变有时候不变,让你猜不到。而“猜不到”难道不是体育比赛最大的魅力吗?

我认为大数据真正的价值并不是预测和操纵,而是分析和理解事实。比如说,有人认为欧洲杯比世界杯精彩,因为欧洲都是强队,而世界杯上有很多代表政治正确的、凑热闹的弱队,那么这个说法有道理吗?这个问题,让一帮球迷喝着啤酒谈一晚上也没用,用数据说话就很有意义。而这里的难点在于,从数据角度,什么叫“精彩”?

纽约时报网络版有人撰文[4],用几个指标来定义精彩:单场净胜球差距越小越精彩,总进球数越多越精彩,射门数、传球成功数、前场传球成功数、以及球队获得球权以后平均形成射门的次数,都是越多越精彩。根据这些指标分析,欧洲杯至少像世界杯一样精彩,过去五届欧洲杯的平均指标跟世界杯差异很小。而单轮2012欧洲杯和2014世界杯的话,从净胜球和传球成功数这两个看起来更重要的指标来论,欧洲杯要比世界杯精彩。

你可以质疑这些指标的合理性,但这些指标至少是可操作的,你很难找到更好的办法说明问题。再比如说,总有球迷质疑梅西和C罗在国家队比赛不如在俱乐部卖力,而著名预测网站FiveThrityEight则用数据说明[5],这二人(尤其是梅西)跟其他球星相比,在国家队和俱乐部都是首屈一指的人物,只不过他们在俱乐部的作用的确更大而已。

数据不但能平息争论,而且能发现隐藏的真相。英超是世界最强联赛,那英格兰队为什么就不行呢?《经济学人》上一篇文章[6]用数据分析告诉我们:那是因为英格兰的队员在联赛中都不是“角儿”— 最有创造性的传球和组织都是外援包办,轮不到他们。

这个关键数据是说英格兰队每隔22分钟才能制造一次带来射门的关键传球,这个成绩相当于英超中的埃佛顿队 — 而像阿森纳这样的顶级球队,这个数字是每隔14分钟一次。

你并不能从这个数据中得出英超应该限制外援的结论 — 只有天才才能带来充满想象力的传球,而英国就是不产天才又有什么办法呢?

作为一个只能隔岸观火的中国球迷,请允许我在本文最后呼吁,赶紧归化孔卡进中国国家队吧。


来源:36大数据

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

我要评论