方差

方差用来度量随机变量和其数学期望之间的偏离程度,variance =E[(X-EX)(X-EX)]

标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。

机器学习中的方差和标准差 方差和标准差的应用_数据

 

 存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:

简单的说,是除以 N 还是 除以 N-1,则要看样本是否全,比如,我要统计全国20岁男性的平均身高,你肯定拿不到全部20岁男性的身高,所以只能随机抽样 500名,这时要除以 N-1,因为只是部分数据(称为整体数据的无偏估计);但是我们算沪深300在2017年3月份的涨跌幅,我们是可以全部拿到3月份的数据的,所以我们拿到的是全部数据,这时就要除以 N。

协方差

协方差Covariance用于描述2个随机变量偏离其均值的程度,cov(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-E(X)*E(Y)

协方差作为描述X和Y相关程度的方法,在同一物理量纲下有一定的作用。但是两个变量采用不同的量纲时,他们的协方差在数值上会表现出很大的差异。为此引出相关系数的公式(如下),其具有如下特点:

  • 相关系数是一个衡量线性独立的无量纲数
  • 取值范围是[-1,1]

机器学习中的方差和标准差 方差和标准差的应用_协方差_02

 

 协方差矩阵

协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量高维度随机向量的自然推广。协方差矩阵为对称非负定矩阵。

机器学习中的方差和标准差 方差和标准差的应用_数据_03

 

 

机器学习中的方差和标准差 方差和标准差的应用_数据_04

 A geometric interpretation of the covariance matrix