r语言累积曲线 r语言 积分_r语言累积曲线


足球的主场优势体现在: 地利(场地熟悉, 没有舟车劳顿)人和(球迷亲人助威, 老板督战)

从各大联赛的主客场积分上也能明显体现出来,比如英超16/17赛季主客场积分:


r语言累积曲线 r语言 积分_数据_02


r语言累积曲线 r语言 积分_r语言累积曲线_03


几乎所有球队的主场战绩都要好于客场

----------

再看17/18赛季意甲积分情况


r语言累积曲线 r语言 积分_github_04


进球最多的拉齐奥只能排第5,失球过多应该是一个主要原因,但到底是什么影响到最终的排名呢?光靠眼睛看每个赛季的图表可能有点吃力

那么下面就讨论一下如何用R语言从五大联赛赛季排名数据中寻找规律并 验证主场优势 以及 影响最终排名的主要因素


从pearson相关性系数看,和积分(即排名)相关性较高的为主场净胜球、主场积分、客场积分;相对主场战绩和总积分的相关性更高


r语言累积曲线 r语言 积分_正态分布_05


残差并非完全服从正态分布,检查了离群值大部分是垫底球队的数据(一些垫底球队的丢球数和积分实在有些离谱),这里暂时忽略掉


r语言累积曲线 r语言 积分_R语言怎么写积分_06



下面就从相关性最大的两个因素展开分析:

五大联赛2009~2018年所有球队积分+净胜球分布图(虚线表示平均值)


r语言累积曲线 r语言 积分_正态分布_07


r语言累积曲线 r语言 积分_r语言累积曲线_08


  1. 积分、净胜球均值51.14、0
  2. 客场积分、净胜球均值20.57、-7.39
  3. 主场积分、净胜球均值30.6、7.39

可见主场优势在数据上体现的非常明显 所有指标都呈现正偏态分布,偏离较大的数值基本都是各大豪门贡献,足球界的金元效应明显

--------------

五大联赛2009~2018年前三名积分+净胜球分布图:


r语言累积曲线 r语言 积分_R语言怎么写积分_09


r语言累积曲线 r语言 积分_r语言累积曲线_10


前三名净胜球均值主场是客场的2.08倍,但积分只有1.26倍;这说明了2点: 1. 想进入前3,客场拿分能力很重要 2. 即便是强队,在客场踢球会艰难很多 同时主场积分略微呈现负偏态分布,说明主场拿分能力是进入前3的最基本保障(44.43/(19*3) = 78%)

五大联赛2009~2018年冠军积分+净胜球分布图:


r语言累积曲线 r语言 积分_正态分布_11


r语言累积曲线 r语言 积分_数据_12


冠军净胜球均值主场是客场的1.76倍,积分1.21倍 冠军球队主场拿分率均值是恐怖的 48.29/(19*3) = 84.7%

五大联赛2009~2018年降级区积分+净胜球分布图:


r语言累积曲线 r语言 积分_r语言累积曲线_13


r语言累积曲线 r语言 积分_r语言累积曲线_14


降级区净胜球均值为-30.36,其中73%由客场贡献,积分主场贡献64%

换个姿势,以排名顺序看一下主客场的数据范围

关键几点

  • 主场优势显而易见
  • 冠军的客场净胜球至少是正值
  • 冠军的主场积分最少是40
  • 冠军客场失球数<=26
  • 前6的主场净胜球至少>=0
  • 前6的客场失球数<=35


r语言累积曲线 r语言 积分_数据_15


r语言累积曲线 r语言 积分_r语言累积曲线_16


r语言累积曲线 r语言 积分_github_17


r语言累积曲线 r语言 积分_github_18



以上可视化图标涉及的包为: highcharter, GGally

jbkunst/highchartergithub.com

r语言累积曲线 r语言 积分_r语言累积曲线_19

https://github.com/ggobi/ggallygithub.com


r语言累积曲线 r语言 积分_r语言累积曲线_20