所以我才打高球 发表于 2014-7-3 22:45:43

【数据分析】巴西世界杯8强进攻+防守能力全面分析

本帖最后由 所以我才打高球 于 2014-7-4 19:52 编辑

所长以体育数据帝自封!很久以前的帖子就有涉及。所长喜欢将所有的判断和结论均依据数据做出,而绝无半点被媒体引导、先入为主的观点。目前世界杯8强已经分出来了,我做了主要数据的汇总,并从中进行了初级分析。所长疯了,将利用本次分析进行大赛前的预测,首要目的是博大家一笑。其次的目的是:预测本届世界杯的决赛队伍和冠军得主。

好了,给大家介绍一下所长我对数据的划分思路和分析思路。

首先,所长研究了:“进球、助攻、射正、射门、传球次数、控球率”这样几个底层数据,对进球和助攻研究出了“助攻比率”;对射正和射门研究出来“射正比率”;同时,为了分析球队控制场面的能力,直接使用了进球数、传球次数和控球率这三个底层数据进行评估,我认为这三个底层数据平行的看会更能反映球队控制场面的真实水平。

这样,综合以上五个分析范围(助攻比率、进球数量、射正比率、传球次数、控球率)按各项数值进行排名,8强队伍以8-1倒序打分,最终我们就可以得出8强队伍的五项总分,合计后,可得出最终的排名。而这份排名就是所长我的进攻能力排名(为了降低工作量,我默认这五项参数的权重是平均的)。

防守能力排名我还没有研究完成,请大家耐心等候,我会在开赛前给大家一个交代。

ok首先来看“助攻比率分析”:

下图是各队伍的进球数和助攻数量

这图是底层数据,没有什么可说的。

下图是各队伍的助攻比率


分析:我们拿德国队是56%来说,说明德国队友几乎一半的进球是第一落点抢到位置后打进的;同时,还有部分的进球是在第一落点失去后,由队员在第二、第三落点得到后打入的进球;剩下的部分是由单独的球员发挥个人能力打进的。

这说明助攻比率这个参数并不是数值越高越好,它所反映的真实情况是一个队伍在进攻时把握机会的能力是否全面。我们看到,哥斯达黎加这只队伍的助攻比率达到了100%,这说明这支队伍的进球全部是由团队配合一脚打入的。能否说明这支队伍很可怕么?不能,因为这个数据同时反映了这只队伍几乎没有在第二落点和第三落点的获取球权后转换为进球的能力,也反映了这只队伍没有能够单枪匹马独自完成进球的球员。所以说这个数据越大反而越不好。而在50%左右是最佳的。

以下是助攻比率分析的得分排名



我们再来看“进球数量分析”


引入进球数量的参数是因为助攻比率并不能很好的描述对球队进攻能力的展现,它并不是唯一重要的因素,我们看荷兰队进球数量第一,但助攻比率并不在前,导致其得分落后,这样的结论明显是违背事实的。所以所长我决定直接从底层数据为球队获取这方面的实力权重。

以下是进球数量分析的得分排名



我们再来看“命中比率分析” 请看以下两图




在统计命中比率后,我们直观的就可从侧面认同在分析了助攻比率后为什么还要分析进球数量。将这个数据引入考虑确实更加有助于我们准确的分析球队能力。

以下是命中比率分析的得分排名



我们再来看“控球率”


我们可以看到德国阿根廷两队在控球率方面是并列第一,但是真的能够说德国和阿根廷是一样的控场水平么?我们待会从传球次数上就可以见到真相。

以下是控球率的得分排名



最后,我们来看“传球次数”



大家看到了吧,德国人比阿根廷人整整多出24%的传球次数,但获得的是同样的60%的控球率。这可以夸赞说德国人比阿根廷人拥有更少的失误吗?

以下是传球次数的得分排名


ok,进攻能力的初级数据分析到此为止。我们来统计一下总分吧:



德国第一。知识分子们你们是不是都不满意了?来吧,释放你们的怒火吧!用比我更有说服力的语言压倒我吧!

我们看到,今年的巴西和比利时得分一致,所长我觉得其实这个分数是能够反映巴西比赛的现实的。

我们来看一下赛程,德国接下来要碰实力排名第三的法国,假设过关后又要碰实力排名第七的巴西;而实力第二位的阿根廷则要先打排名第6位的比利时,然后对阵只比自己少5分的荷兰,最终进军决赛。

看吧,让事实验证我的预测吧!

对了,这个文章并没有结束,请大家期待所长我对各队防守能力的分析;最终我会给出总分,并根据总分调整预测结果哈。

所以我才打高球 发表于 2014-7-3 22:46:18

本帖最后由 所以我才打高球 于 2014-7-4 19:52 编辑

所长继续。

做好了防守数据的分析,现在就给大家贴上来。

本次防守数据可能会引起较大争论。我先说明一下我的数据范围,所长通过统计“扑救、抢断、拦截、犯规、封堵、黄牌、红牌”类似这样的底层数据,经过一定初级手段的分析,做出了这份8强防守水平的预测。

首先,扑球数据是评价守门员能力的关键数据,但是在评价球队时却不能简单的看。扑救次数高,确实说明守门员能力强,但是也能够反映出后防线没有给与球门足够的阻挡,当然我们也可以说这支球队禁受住了实力相近球队的足够的进攻,经的起考验,成色很足。



下图是扑救次数的8强排名得分:



ok,守门员表现好;究竟是后防线太弱,造成过多的暴露了守门员还是对手真的与自己旗鼓相当后防线表现也很卖命了呢?我们来看下一个指标,抢断次数:



依然是德国队8分排名首位,所长我毫不掩饰的说,德国队是目前成色最足的球队,它经历了三支田径队的轰击,实实在在硬碰硬的打了三场硬仗,其中阿尔及利亚队是所长我特别点名剔除赞美和致意的球队,我看到他们主教练的眼神时惊叹,这支队是奔着冠军去的!他们是本届世界杯最强的劲旅之一,是生猛凶悍的斗士!那场比赛德国队3:3、4:4都是可能打出来的,甚至输球也几乎差点。跑偏了,以后再说阿尔及利亚,先看抢断次数的8强排名得分:




其实抢断次数说明的是球队积极拼抢努力协作的态度,但不足以说明球队防守能力的完成效率。那么我们必须更进一步的研究这个问题,来看抢断成功率:





大家看出来了没,荷兰队第一,德国队倒数第一。这个数据结果是真实的,但是它需要分析。本届世界杯荷兰队表现的非常成熟,即便在碾压西班牙的比赛中也不是什么媒体所说的全攻全守,而是彻底的防守反击。他们几个进球所投入的兵力只有2、3个反击手,非常冷静。不过,他所经历的对手依然成色不足,都是弱队(包括西班牙),晋级的比赛也归功裁判,我们且看荷兰今后表现。

这里面就出现了一个很难量化的因素,战术打法。

德国队抢断成功率倒数第一,一方面是美国、加纳、阿尔及利亚这三个强大对手的攻防转换极其流畅,另一方面,取决于德国人今年的战术。

他们的战线压得太靠前了,对手边路空挡利用的太充分,也导致给予了对手在自己半场大打长途奔袭的机会。更导致了守门员不得不离开禁区进行防守扑救。这是德国人最大的隐患,也是德国人至今每场比赛观赏性极强的原因。我们不多做讨论,先看比分吧:




犯规比率。通常意义上,犯规比率的正面意义是表现球队在对方进攻时限制对手进攻、组断对手进攻节奏的能力(数据越高得分越多);同时,其反面意义是表现球队踢不过对手,只能用犯规来切断对手的进攻(数据越高得分越低);在这里,所长将犯规比率仅指定为正面意义,而反面意义将由“得牌率”指数完成评分。

ok,我们来看犯规比率:





是的,数据越低说明这支队伍几乎不考虑将犯规作为一种战术运用在赛场中。这种骑士精神的古风值得钦佩。但现实往往是,当这样的球队不得不使用犯规的时候,他们的犯规往往是要吃牌的动作。这样来看,适当的利用战术并不是一件太坏的事。

犯规比率得分:




好了来看得牌率:



这就是德国人骑士精神所付出的代价,还记得德国人和加纳队全场打“田径运动”到了85分钟后才吃牌的情况吗,此后的竞争环境越发激烈以后,这种作风就产生了不好的效果。

得牌率得分:



好了,我们来看各队防守部分的总分吧:



大家看到了吧,这个防守得分排名,有争议吧。

先别着急,我们来合计一下进攻和防守的总分吧:



荷兰综合实力第一,德国、哥伦比亚综合实力并列第二,也就是说德国和哥伦比亚其中一个会进入决赛,与荷兰争夺冠军。阿根廷也会进入四强。

而巴西,今晚就会死。

桃李不言 发表于 2014-7-3 22:54:28

提两个意见:
1. 控球率相同,传球次数少不一定是因为失误多,也可能是因为个人控球护球能力强。
2. 单纯以单项排名分配分数然后简单相加,这个统计方法不够精确。

所以我才打高球 发表于 2014-7-3 22:56:11

本帖最后由 所以我才打高球 于 2014-7-3 22:57 编辑

桃李不言 发表于 2014-7-3 22:54 static/image/common/back.gif
提两个意见:
1. 控球率相同,传球次数少不一定是因为失误多,也可能是因为个人控球护球能力强。
2. 单纯以 ...

说的非常对!

权重是平均分配的,这个其实不够科学,而且那个传球次数也有你说的可能,甚至有反向效果!但是我太懒了,而且,这样做也可以引起争论,我觉得更好。

{:187:}

如果我能引起大家的争吵和怒气,岂不是等于发了一招战吼嘲讽技能!

帅啊!

hanhan 发表于 2014-7-4 06:22:44

做一下各个项目之间的交互分析和格兰杰检验,看看是否存在关联关系和因果关系;
另外,可以进行因子分析,修改各项的权重。

李禾平 发表于 2014-7-4 07:44:44

厉害,所长说的有理有节有图!{:222:}

但是最后预测俺不同意,荷兰会把阿根廷或比利时干掉,进决赛+夺冠,感性的球迷不解理性分析的风情。。。。。。

{:235:}

黯影 发表于 2014-7-4 07:50:10

对手因素貌似没考虑啊,巴西比赛以来的对手太强了,换谁数据逗好看不了。阿根廷目前没遇到强队呢

所以我才打高球 发表于 2014-7-4 08:54:27

hanhan 发表于 2014-7-4 06:22 static/image/common/back.gif
做一下各个项目之间的交互分析和格兰杰检验,看看是否存在关联关系和因果关系;
另外,可以进行因子分析, ...

这个是重点。这里没有用到专业的分析工具。而老大你提到的这些分析会破除很多看似有道理有数据的假设,至少可以真正确定因素的影响力大小。可以帮助确定各因子的权重。

我这个分析的弊端是假设了所有已采纳的因素的影响权重是平均的,但实际上肯定不是,有些球队的优势被重复考虑被放大了,而有些球队的劣势似乎被重复考虑和放大了。

所以,很粗糙的其实。

qiuwen777 发表于 2014-7-4 11:26:53

德国人可能数学比较好,所以也会去追求数据,有没有刷数据的可能?
巴西人会告诉你,足球不是这样踢的,足球是一种天赋。

删除失败 发表于 2014-7-4 11:29:35

三流蓝是个奇葩。

中前场每个都是大牌,一到国家队就大面积低迷,完全捏合不到一起,而且从98年开始,除了06年,历届都是这种情况。像迪玛利亚一场比赛能丢球这么多次,在俱乐部完全不可想象。

hanhan 发表于 2014-7-4 12:10:14

所以我才打高球 发表于 2014-7-4 08:54 static/image/common/back.gif
这个是重点。这里没有用到专业的分析工具。而老大你提到的这些分析会破除很多看似有道理有数据的假设,至 ...

其实,如果把时间考虑进去,考虑每个时段(1分钟或者10)分钟的各种数据,形成高位的数据模型
对比不同时点,各个队的各种状态,也可以得到一个多维的比较,预测某队在某时点处于进攻或者防守(进球)。
形成类似对战模型,这样好像也是个蛮好玩的。

橡树村 发表于 2014-7-4 14:03:34

现在有现成的Castel指数评价球员对进攻和防守的贡献。把主力的得分加在一起比较一下试试不知道会什么样子。

万里风中虎 发表于 2014-7-4 15:01:47

德国数据是遥遥领先,法国发威吧,我看好你哟

万里风中虎 发表于 2014-7-4 15:11:44

李禾平 发表于 2014-7-4 07:44 static/image/common/back.gif
厉害,所长说的有理有节有图!

但是最后预测俺不同意,荷兰会把阿根廷或比利时干掉,进决赛+夺冠 ...

看好荷兰

逍遥探花 发表于 2014-7-4 15:40:12

我就问楼主一句,你说德国夺冠,三妞赌神同意了吗?{:213:}

所以我才打高球 发表于 2014-7-4 16:20:10

黯影 发表于 2014-7-4 07:50 static/image/common/back.gif
对手因素貌似没考虑啊,巴西比赛以来的对手太强了,换谁数据逗好看不了。阿根廷目前没遇到强队呢 ...

成色最足的其实还是德国,遇到了三只田径队,加纳、美国、阿尔及利亚,德国遇到这三支队的做法不是防反,而是对攻,这种选择令比赛很好看,很惊险,活着走到现在,也反映出了其实力上的强悍。

巴西的话呢,没有外界评论的那么差,但是确实是最弱的一届巴西队了。

成色最差的是阿根廷。

我个人认为无论是阿根廷还是巴西,如果碰到的是阿尔及利亚的话,很可能就被打爆了。

所以我才打高球 发表于 2014-7-4 16:21:42

hanhan 发表于 2014-7-4 12:10 static/image/common/back.gif
其实,如果把时间考虑进去,考虑每个时段(1分钟或者10)分钟的各种数据,形成高位的数据模型
对比不同时 ...

我真的觉得足球应该这样分析,甚至直接将及时监测的数据引入教练组的平时训练。

hanhan 发表于 2014-7-4 16:28:38

所以我才打高球 发表于 2014-7-4 16:21 static/image/common/back.gif
我真的觉得足球应该这样分析,甚至直接将及时监测的数据引入教练组的平时训练。 ...

同意,这样才能形成大数据量的样本。真正进行数据挖掘;我觉得这样才能形成数据情报分析。

不过平时的数据有个问题,就是人的状态差异,心里因素干扰太多。否则就不用比赛了,直接打分算了

黯影 发表于 2014-7-4 16:41:03

本帖最后由 黯影 于 2014-7-4 16:43 编辑

所以我才打高球 发表于 2014-7-4 16:20 static/image/common/back.gif
成色最足的其实还是德国,遇到了三只田径队,加纳、美国、阿尔及利亚,德国遇到这三支队的做法不是防反, ...

是滴,俺其实就是想说阿根廷,数据太水,比赛以来俺最大的困惑就是这赛程分组,到底巴西是主队还是阿根廷是主队,{:190:}

所以我才打高球 发表于 2014-7-4 16:45:17

hanhan 发表于 2014-7-4 16:28 static/image/common/back.gif
同意,这样才能形成大数据量的样本。真正进行数据挖掘;我觉得这样才能形成数据情报分析。

不过平时的数 ...

没关系,反正反映在外界的就是数据的下降或者上升,那么通过沟通,可以得知这种心理状态与所表现出来的状态数据的相关性,无论怎样,记录下来就好。

心理作用我觉得一般而言权重不会很大吧,除非有个人身边发生了重大变故。
页: [1] 2
查看完整版本: 【数据分析】巴西世界杯8强进攻+防守能力全面分析