大数据时代,足球何去何从

时间 • 2020-07-11 14:59:00
365bet开户
比分

五大联赛已经重燃战火,各家俱乐部也将带给我们更多的激情碰撞和经典对决。从2016-2017赛季开始,我将把欧洲杯期间的系列延续下去,每周(大概)为大家带来欧洲足坛产生的那些亮眼数据。

在崭新的栏目开始之前,首先在这里为各位懂球帝介绍一下当今足坛的各项数据究竟如何产生,到底有哪些作用,又各自有着怎样的局限性。权当引言,也希望给未来大家产生的疑问做一个可供收藏的答疑索引。

(图)2012年欧洲杯德国对阵希腊时的射门统计

【铺天盖地的数据,究竟从何而来】

在如今这个网络咨询横飞的时代,球迷们可以在每场比赛结束之后迅速受到各项数据的洗礼,从微博微信再到懂球帝。很多人也就此产生了一个疑问:数据究竟是如何统计出来的呢?有人猜是采集员拿着一个小本本划来划去,有人猜是电脑程序控制一切。恭喜你们,都对了。

根据数据类型和用户需求的差异,足球场上的数据基本来源于下面三种形式。

第一种,人工统计。数据采集人员现场观战或者收看高清转播,手动记录包括射门、传球、抢断等重要事件,并且标记球员、起止点和时间等相关内容。再经过系统的整合和分类,最终形成下面这种球迷无比熟悉的数据图。

(图)2016年欧洲杯威尔士迎战比利时的传中统计

在足球数据兴起的初期,这类统计都是由单人独力完成或者双人各负责比赛一方。伴随着数据公司的发展和用户们对于准确度更高的要求,如今数据的采集基本上都使用了“一场配多人”的方式。至于那些类似于“这是射门还是传球”的争议事件,会由投票来决定结果。

除了越来越准确之外,这类数据也变得越来越直观。比如,系统会自动根据采集员录入的数据,绘制出下面这样形象的球员活动热图。

(图)2016年欧洲杯揭幕战坎特活动热图

著名的数据提供商OPTA就是这样完成采集和统计工作的,他们平均每场采集的数据大约为1500个。而从OPTA那里导入数据进行分析的网站我们就更加熟悉了,比如WhoScored等等。

不过,人工统计的数据有着一个明显的缺点:只能统计有球活动。无论是无球时的相关动作还是跑动距离等数据,都无法通过肉眼观察来进行统计。因此,这类数据的主要服务对象是媒体和球迷,真正为球队提供数据服务的公司,还有其他更高大上的统计方法。

第二种,高速摄像。在球场的各个位置安装若干个专门设计的高速摄像头,通过光学追踪算法自动提取球员和足球的运动轨迹,从而完全由程序计算出包括跑动距离在内的实时数据,甚至可以把跑动细分为慢跑、快跑、冲刺等各个分项。

在实际操作中,这样的自动化过程有时仍然需要人工的干预,比如两名球员的贴身拼抢等等。但即便如此,高速摄像所采集到的数据肯定和纯手工统计完全不在一个数量级之上,也受到了众多俱乐部的欢迎。

这项技术的佼佼者是成立于1995年的Prozone,目前该公司已经被STATSports收购,后者也将在下面的段落登场。

(图)2016年欧洲杯单场跑动最多、每90分钟跑动最多的球员,都是意大利的老将帕罗洛

这一方法也有着自己的局限:整个系统必须安装在球场之内。换句话说,想要采集这样的数据必须得到俱乐部的同意,想要在整个赛事中进行横向对比还需要和组织者甚至足协进行谈判。此外,不同的提供商在光学算法上的差异,也有可能导致最终数据存在一定程度的误差。

第三种,传感设备。近些年,有一种新鲜的景象逐渐引起了舆论的关注,那就是很多球员在训练甚至比赛中穿起了短小的黑色背心,球迷也形象地将其称为“Bra”。

穿戴这个黑色背心的意义,就是采集球员运动时的各项数据。在背心的正面有着一条心率带,可以随时监控球员的心率、运动负荷等身体数据。而在背部则有着整个系统最为关键的GPS模块,可以测量跑动距离、实时速度、反应速度、步伐平衡度等一系列精细而复杂的内容。

2015年7月,国际足联正式允许球员在比赛中穿戴传感设备,“黑色背心”也迅速成为了各大豪门以及国家队的标配。英超英冠加起来有差不多30支球队都成为了北爱尔兰STATSports公司的客户,包括曼联、曼城、阿森纳、利物浦、热刺等等。巴萨和他们做出了同样的选择,而切尔西、皇马、巴黎、尤文、米兰双雄等则购入了来自澳大利亚的GPSports智能运动内衣。

提到这类数据的缺点,首先就是贵,给全队配备“黑色背心”成本达到了数十万欧元,这个对于豪门来说不算什么的价格却限制了其在低级别联赛或者不太富裕地区的发展。而对于豪门来说,最大的问题在于只能采集本队球员的数据,无法与其他球队的球员进行比较。

这三类数据各自有着不同的用途,他们是如何改变足球这项运动的呢?

【究竟怎么用,也是门学问】

必须写在前面的是,数据只是帮助人类进行主观判断、得出结论的辅助手段,目前的技术水平还远远达不到还原比赛全貌的程度。换句话说:数据从不骗人,但现阶段所有脱离实际的列举数据,通通都是耍流氓。

在上述前提之下,让我们来看看数据究竟给球队、球迷和媒体都带来了什么。

对于球队来说,数据可以提供的帮助主要包括转会决策和战术安排两个方面。先说转会决策,目前包括曼联、巴萨、拜仁、尤文等欧洲豪门都是网络球探平台Scout7或者WyScout的客户。这些网站可以提供上百个联赛(包括低级别)的球员录像和数据统计,为俱乐部的引援提供参考。

有一些著名的例子:温格第一次签下弗拉米尼,是因为他首个代表马赛出战正式比赛的赛季就跑出了单场1.4万米的神奇数据;而南安普顿愿意将克莱因卖给利物浦,是由于他们的分析小组找到了各项数据极其相似的代替者—当时效力于里斯本竞技的塞德里克-苏亚雷斯。

关于引援和代替者,还有一些研究可能会在未来的转会中起到一定的帮助。曾经有几位学者统计了2012-2013赛季西甲联赛里所有球员的跑动数据,试图找出在跑动风格上与梅西、哈维、C罗最为相似的球员。

结果真的很有意思。与梅西跑动最为类似的球员,是那个赛季效力于马拉加的萨维奥拉,没错就是巴萨俱乐部和球迷一直很舍不得的那只“兔子”。与哈维跑动风格最接近的则是队友蒂亚戈,瓜迪奥拉在那个赛季结束之后就把他带去了拜仁,现实与数据就此相连。

跑动风格最像C罗的球员或许会让很多人意外,是效力于贝蒂斯的鲁本-卡斯特罗。不过,卡斯特罗近6年为球队征战了4个西甲和2个西乙赛季打入了122个进球,西甲单赛季进球也从来都没有少于过两位数,完全可以被称作“穷人版C罗”。

更神奇的剧情来了。在与C罗跑动最为类似的球员中排名第二位的是,当时还效力于皇家社会、如今已经名扬全欧的格列兹曼。

当然,在现实引援中过于信任数据并不一定能达到《点球成金》里的效果。利物浦曾经非常看重“对方半场关键传球”和“对方禁区内抢断成功率”的数据统计,签下了唐宁和查理-亚当,结果俩人并没能在安菲尔德证明自己。

作为红军德比对手的前任主帅,著名的“数据控”马丁内斯对此的态度可能更为专业:“德比战中让他主罚点球,他会有些什么反应?如果是语言不通的外籍球员,他的妻子天天喊着要回国,他又会如何处理?球员平时也是一个丈夫和一个父亲,但数据可管不了这些。”

所以,马丁内斯会在接到球探部门编制的引援名单之后,会先用数据筛选掉并不合适的球员,再通过谷歌、推特和脸书搜集一切关于他的新闻和言论,最终决定是否提出报价。尽管上赛季因为糟糕的战绩已经丢掉了埃弗顿的帅位,但马丁内斯的这一套理论已经被很多年轻教练争相效仿。

数据对球队的帮助,同样可以体现在战术安排上。新任英格兰主帅山姆-阿勒代斯1983年曾经在美国踢球,他发现共用训练基地的NFL球队坦帕湾海盗经常利用数据分析来制定战术,并由于产生了浓厚的兴趣。当Prozone诞生之后,已经拿起教鞭的他立刻成为了首批客户,并且开始探讨数据和战术的结合之道。

在执教博尔顿期间,大山姆向Prozone订制了特殊版本,并且雇佣了一个年轻的高学历团队专门进行研究和分析,最终转化为了不断要求无球跑动和极为看中定位球的战术风格。2003-2007年的那四个赛季,他的博尔顿始终保持在英超的前八位,可谓现实足坛里最早的《点球成金》。

而在大山姆当年组建的数据分析团队中,有三名年轻人现在还活跃在英超世界,他们分别成为了曼城的数据分析主管、技术球探,以及利物浦的转会总监。前人栽树后人乘凉,已过花甲之年的阿勒代斯早已不是足球数据的弄潮儿,但他却深刻地影响着欧洲足坛。

如今,阿森纳收购了数据分析公司StatDNA,为温格的赛前备战、赛后分析以及技战术革命提供全面的帮助。曼城组建了一个11名成员的数据部门,并与大学等研究机构签订了多项合作协议,目的毫无疑问是想要成为“大数据时代”的领先者。

这股从英超兴起的浪潮也开始席卷欧洲大陆,从拜仁到皇马、从巴萨到尤文,基本上所有的豪门都在近些年创立了数据分析部门,并且与各专业厂商达成了合作协议。

几乎是在国际足联允许球员穿戴传感设备的同时,巴萨就让梅西在正式比赛中穿上了智能运动内衣,目的就是为了采集心率等数据,来确定他有没有在美洲杯的劳顿之后彻底恢复。

Prozone则已经在超过150家俱乐部的主场架起了摄像分析系统,覆盖了五大联赛的大部分球队,为他们的分析部门实时提供每场比赛的数据。而在安联球场,Prozone与软件业巨头SAP合作为拜仁提供数据订制服务,去年更是将这套设备推广到了整个德甲。

诸如此类对数据的使用,不仅能够监控球员的身体健康从而避免不必要的伤病,还可以在判断状态好坏、针对性布置、寻找球队缺点等多个方面为排兵布阵提供帮助。

当然,必须再次强调的是,数据只是辅助,主帅的决策依然是战术世界的关键。

【从兴趣到职业,普通人也有机会】

由于无法得到Prozone和STATSports等公司提供的专业数据(除非你愿意花上几十万欧元),因此公众基本上只能从OPTA相关渠道或者部分官方新闻里接触到部分数据。这些数据大部分都来源于人工统计,因此对于整个比赛产生的专业数据量来说仅仅是沧海一粟。

这样的沧海一粟显然无法代表足球的全貌,但已经足够满足公众对于足球数据的好奇心,以及作为深入了解足球的切入口。

对于球迷来说,数据是从伪球迷走向懂球帝的方式之一。伴随着收看场次的增多,很多人会对比赛的走势、无球的跑动、战术的调整产生浓厚的兴趣。如果回头能发现“某名后腰登场之后右路进攻所占比例从31%上升到了57%”、“30分钟之后主队的控球率从56%下降到了42%”这样的数据,再想起该后腰完成抢断之后第一时间传到右路、主队开局一波猛攻随后迅速回防的实际场面,对于主教练的排兵布阵也会多多少少增加些了解。

或者,还可以在某些“一言不合就开黑”的喷子面前,拿出一打数据狠狠打脸,有过此类经验的懂球帝肯定会明白其中的痛快。

甚至,如果你能钻研得足够透彻,还有将兴趣转化为职业的可能性。

Prozone在多个国家开设了教育基地,为普通球迷和俱乐部工作人员提供如何使用数据的专业培训,并且会为成绩优异者颁发证书。在这个科学化分析越来越吃香的年代,有不少数据方面的专业人才通过这个渠道找到了踏入职业足球领域的机会。

试想一下,如果能够成为俱乐部分析部门的职员,在主教练为了球队进攻乏力一筹莫展的时候,你递上这样的一份报告:本队平均守转攻的推进速度为4.1m/s,而整个联赛中的平均数值为6.6m/s,或许可以尝试给青年队带球速度最快的某某一定的机会。

成为穆里尼奥的心腹,不是没有可能。

你也许觉得这样的事情离咱们还很远很远。但实际上,广州恒大、上海上港、杭州绿城等俱乐部都已经有专人负责数据的整理和分析,也有“武磊下半场冲刺速度比上半场更快”这种可以对战术安排起到帮助的实际运用。起步虽晚,未来可期。

对于媒体来说,数据是解说、分析、总结比赛的好帮手。如今,球迷早已不能满足于平铺直叙的报道方式,对于围绕着比赛的全方位报道有着各自的关注点和需求。而在评价比赛或者球员时,数据可以为媒体人的观点提供有力的支撑。

已经成为著名评论员的枪手名宿亨利对吉鲁有着这样的评价:“已经很不错,但还不够好。”而他拿来作为佐证的便是这些数据:吉鲁头球争顶成功率和场均关键传球都在英超中锋里属于顶级行列,射正率和射门转化得分率每年都在攀升,但是错失绝对得分机会的次数同样是整个英超第一。有理有据,使人信服。

正如文章开头所说的那样,我将在新赛季为各位带来欧洲足坛每周的有趣数据。在此,先提前介绍一下未来可能出现、球迷并不太了解的部分术语。

【划重点和答疑时间】

若无特殊说明,下列解释专指OPTA统计数据,和其他公司或组织的定义可能存在差异。

创造机会(Chances created):指的是成功传给队友并且导致射门的传球,其中最终带来进球的叫做助攻(Assist),而为队友创造射门机会却没能进球的叫做关键传球(Key passes)。需要说明的是,只要成功将球传给队友,哪怕这名队友经过带球之后再射门,仍然会被计算为创造机会甚至助攻。比如下图欧洲杯英格兰与斯洛伐克比赛的数据统计中,出现在本方半场的那次关键传球,就是得球队友一路带球到禁区前沿然后远射的结果。

此外,在OPTA目前的数据统计中,只有传球才会形成助攻。因此葡萄牙欧洲杯半决赛战胜威尔士的比赛中,C罗禁区外的远射被纳尼捅入球门,并没有被计算为助攻而算作了一次打偏的射门。不过在欧足联的规则下,这球被计为了C罗的助攻。

前场传球(Attacking Third passes):按照字面意思也可以直译为进攻三区传球。所谓进攻三区,是指将球场纵向分为三块之后最接近对方球门的那1/3区域。这个划分方法其实在国内一直有更通俗易懂的解释,也就是后场、中场和前场。因此,包括BBC在内的媒体在其中文版中都会直接将接球点在进攻三区的传球翻译为“前场传球”。

另一个很多人并不清楚的是,传中、任意球、角球、界外球、门将手抛球、球门球这6大类都不会计算在传球次数之内。因此,诸如“克罗斯全场传球超过了100次”之类的数据,其实都不包括边路传中和他主罚的定位球。

对抗成功率(Average Duels Won):指的是球员在单对单对抗中获胜的比例。目前这项数据可以细分为以下四项--抢断成功率、被犯规占犯规事件(被犯规+犯规次数)的比例、过人成功率以及争抢头球成功率。总体的对抗成功率是上面四项中的成功次数占各项总数之和的比例。

因此,梅西上赛季联赛中的对抗成功率的计算方法如下:成功抢断(7次)+被犯规(60次)+成功过人(117次)+争顶头球成功(5次)=189,抢断总数(24次)+犯规事件总数(73次)+尝试过人次数(190次)+争顶头球次数(14次)=301,结果为189/301=62.79%。单场比赛中的该项数据也是同样的道理。

抢断(Tackle):指的是球员在单对单断球中赢得对抗,并且拿到球权或者将球踢出界外的行为。也就是说,如果防守者伸腿从带球者脚下断球但捅给了另一名对方球员,在数据统计中并不算完成抢断,而是计为一次抢断失败。

不过,这只是OPTA和国际足联统计数据中的概念。而在欧足联的统计中,Tackle指的是铲断,也就是“通过铲球完成的抢断”,因此他们在欧洲杯期间官方数据给出的单场全队Tackle往往只有两三次。

拦截(Interception):指的是防守球员在对方传球时,阻止足球传递给目标者的行为。因此,将对方传球破坏出界外的防守同样会被计算为拦截。目前该项数据不会计算失败次数。

解围(Clearance):指的是当一名球员处于压力之下,将球踢出或者顶出防守区域的行为。在没有压力的情况下将球破坏的行为只会计算为抢断或者拦截,不会计算为解围。此外,如果解围直接将球送给了防守区域内的对手,则会被计为一次解围失败。

细心的你可能已经发现,抢断、拦截、解围这三者之间的差异实在是有些微妙,也很容易产生争议。而当“这究竟是抢断还是解围”的疑问产生时,正如前文所言会根据采集员的投票来决定最终结果。

夺回球权(Ball recovery):也经常被翻译成“反抢”。实际上这是一个相当笼统、各方都有着不同定义的概念。OPTA官方对此的解释为“球员夺回已经失去的球或者球直接回到他控制之下”。

是不是很难理解?实际上,在目前的统计中大概可以理解为:球员接到传球或者带球时,对方做出防守动作但没有形成抢断或者拦截,球权短暂失去之后又回到本方的行为。

是不是更难理解了……好吧,用GIF来说明可能更加直接。博格巴在欧洲杯揭幕战中完成了全场最高的12次夺回球权,让我们来仔细观察其中的两次。

案例A:萨尼亚将球顶给博格巴,罗马尼亚球员上前盯防,球虽然碰到了这名罗马尼亚球员,但他并没有完成任何抢断动作,博格巴随后控制住了球,被计为了1次夺回球权。

案例B:博格巴在带球中,罗马尼亚球员上前有身体接触但并没有做出任何抢断动作,随后足球碰到这名球员的身体弹出了界外,博格巴又获得1次夺回球权。

所以说,“反抢”的翻译可能并不准确,夺回球权并不是我们字面理解的“被抢断之后再抢回来”(实际上这样的情况会被分别计为抢断),而是指“失去球权后立刻夺回”。这项数据也不属于防守类别,各大数据网站中都将其归于进攻条目之下。

很折磨人是不是?没错,由于缺乏统一并且严谨的通用标准,因此足球世界的数据体系还有着非常大的争议和误解。不过,任何新鲜事物的发展必然会经历不断更新和完善的过程,足坛是否会迎来“大数据时代”,接下来让我们共同见证。