Python分析 谁是2018世界杯夺冠最大热门?

  【IT168技术】2018年,世界杯小组赛已经在如火如荼的进行中。在上篇文章的基础上【世界杯:用Python分析热门夺冠球队-(附源代码)】,我们继续分析世界杯32强的实力情况,以期能够更进一步分析本次世界杯的夺冠热门球队。

  本次分析的数据来源于 Kaggle, 包含从 1872 年到今年的数据,包括世界杯比赛、世界杯预选赛、亚洲杯、欧洲杯、国家之间的友谊赛等比赛,一共大约 40000 场比赛的情况。

  创建一个新的列数据,包含获胜队伍的信息,以及获取所有世界杯比赛的数据,包含预选赛。

  从前文来看, 在世界杯历史上,实力最强的5支球队是 德国、阿根廷、巴西、法国、西班牙。

  接下来,我们将比赛的范围扩大至包含世界杯预选赛,通过5支球队之间的比赛情况来进行分析。

  从历届世界杯上的表现情况来看,分析5强之间两两对阵后,发现德国队的表现是最好的。其次巴西和阿根廷的表现也不错。

  考虑到,历届世界杯的数据,时间跨度很大,很多球队其实已经发生了很大变化。

  球队真实的情况,可能选择近几年的比赛,以及包含不同级别的比赛,可能分析效果要更好些。

  首先,时间选择2014年之后(含2014年),距离现在的时间比较近,相对来说,球队人员的组成变化小一些。

  当然,这里的时间选择,对于结果是有影响的。 大家可以探讨下这个因素带来的影响。

  从上图来看,2014年以来,墨西哥,法国,德国、葡萄牙、巴西、比利时、韩国和西班牙表现相对较好。

  从上图来看,自2014年以来,巴西、法国、葡萄牙、阿根廷、墨西哥、比利时、德国、西班牙、英国为前9强。

  总体来说,比赛的场数不是太多,基于这些数据来分析,可能对结果会有较大的影响。

  考虑到友谊赛在有些情况下可能不能比较准确的反映出球队的真实水平,且友谊赛站的场数比例较大,我们剔除友谊赛再来看看结果情况。

  在概览中可以看出,是否剔除友谊赛(Friendly),对排名还是有影响的。

  另外,剔除友谊赛后,总的比赛场数更少了(只有13场),9强之间有些队伍没有比赛,或者没有赢过,这个数据用来分析的作用更有限。

  这里,我们后续分析采用包含友谊赛的数据,来分别分析9强之间两两对阵的情况,看看哪支球队的胜率更高些。

  上述图中,x轴代表的含义是从某年至今(数据集含有部分2018年的比赛数据),两支球队的胜负情况。

  例如 2012对应的是 德国跟巴西从2012年至今,两支球队的胜负情况。

  所以,时间越早,两支球队的比赛数量越多,数据曲线的波动可能要小些。但由于球队的成员组成在不断的变化,会导致越早的数据,其分析价值越弱。 因此,选择合适的年份进行分析就显得很重要。

  用上述函数可以快速的分析两支球队的历史胜负情况,当然,有些球队之间,相遇很少,或者近些年没有遭遇过,那分析结果可能就不好用了。

  当然,数据分析的只是历史情况,足球是圆的,场上瞬息万变。比如,阿根廷现在岌岌可危,梅西内心慌得一逼……

  德国队,若不是最后的绝杀,也差不过可以送首凉凉了,不过现在看已回血大半。

  特别说明: 以上数据分析,纯属个人学习用,预测结果与实际情况可能偏差很大,不能用于其他用途。

您可能还会对下面的文章感兴趣: