目录

1、数学期望(均值)

2、方差 D(X) 或 Var(X)

3、协方差 Cov(X,Y)

4、相关系数 ρ

5、协方差矩阵


一句话概括:期望反映了平均水平,方差反映了数据波动程度,协方差反映了两个随机变量间的相关性(有量纲),相关系数反映了两个随机变量间无量纲的相关性。

1、数学期望(均值)

对随机变量及其概率的加权平均

spark方差膨胀因子 方差膨胀因子的值_机器学习

spark方差膨胀因子 方差膨胀因子的值_python_02

这里说的期望也就是均值,在统计学中大多数情况下是以样本来代替整体,因此样本的均值计算公式为:

spark方差膨胀因子 方差膨胀因子的值_python_03

2、方差 D(X) 或 Var(X)

用来了解实际指标与平均值之间的偏差情况,即反映了数据取值的分散程度。

spark方差膨胀因子 方差膨胀因子的值_概率论_04

若 X 取值集中,则其方差较小,反之, X 越分散其方差越大。

D(X) 满足以下性质:

spark方差膨胀因子 方差膨胀因子的值_方差_05

当 X 与 Y 满足独立同分布(iid时,

spark方差膨胀因子 方差膨胀因子的值_spark方差膨胀因子_06

 ,此时:

spark方差膨胀因子 方差膨胀因子的值_python_07

这里的

spark方差膨胀因子 方差膨胀因子的值_python_08

 就是后面要说的 协方差。另外 标准差(均方差)的计算公式为:

spark方差膨胀因子 方差膨胀因子的值_概率论_09

 ,与 X 具有相同的量纲。

 在样本分析中,方差的计算公式为:

spark方差膨胀因子 方差膨胀因子的值_spark方差膨胀因子_10

注意:这里除以的是1/(n-1)。

方差计算中为什么会出现除以 n 和除以 n-1 两种情况?:

除以 n计算的是总体方差 spark方差膨胀因子 方差膨胀因子的值_python_11  ,除以 n-1计算的是样本方差 spark方差膨胀因子 方差膨胀因子的值_机器学习_12  (也即总体方差的无偏估计)。但是现实中计算总体方差往往是不切实际的,而统计学的研究内容之一就是用样本推测总体,因此我们就常使用样本方差来代替总体情况。

为什么计算样本方差时是除以 n-1 呢?因为我们在计算样本方差前一定会计算样本均值 xspark方差膨胀因子 方差膨胀因子的值_概率论_13  (换句话说,会对样本求和),这就导致样本的 n 项如果确定了 n-1 项的话,第 n 项就一定可以确定,即自由度是 n-1,所以每项出现的概率是 1/(n-1) ,因此要除以 n-1。用线性代数的角度来说,这 n 个量不是独立的,若将 n 个量看成向量的话是线性相关的,可以由 n-1 个线性无关的向量表示。

如果除以 n 代表是在整体数据上做计算,此时所有的量的出现概率都是 1/n,因此此时的方差 spark方差膨胀因子 方差膨胀因子的值_spark方差膨胀因子_14  的计算是除以 n。但是这种情况大多是理想情况下的计算方式,而现实中绝大部分情况都是以样本估计总体,因此我们常见的方差计算公式就是除以 n-1 了。

3、协方差 Cov(X,Y)

协方差用以描述两个变量间的相关性。协方差是一个具有量纲的量。

spark方差膨胀因子 方差膨胀因子的值_python_15

若X 与 Y 相互独立,则

spark方差膨胀因子 方差膨胀因子的值_概率论_16

 。

4、相关系数 ρ

相关系数也用以描述两个变量间的相关性,但与协方差不同的是,相关系数是一个没有量纲的量,公式如下。

spark方差膨胀因子 方差膨胀因子的值_概率论_17

另外,称

spark方差膨胀因子 方差膨胀因子的值_概率论_18

X、Y的标准化。则有:

spark方差膨胀因子 方差膨胀因子的值_python_19

spark方差膨胀因子 方差膨胀因子的值_python_20

相关系数的性质:

  •  。  的值越大说明线性相关程度就越大,  值较大时称 X 与 Y 的线性相关度好;  时说明 X 与 Y 不存在线性关系,但可能存在其他关系,如对于服从  上的随机变量X来说,若X1=sinX,X2=cosX,虽然  ,但满足  。
  •  的充要条件:存在常数a、b,使得

5、协方差矩阵

 协方差矩阵用来描述多维随机变量不同维度间的协方差。

设n维随机变量

spark方差膨胀因子 方差膨胀因子的值_方差_21

 的二阶协方差为

spark方差膨胀因子 方差膨胀因子的值_spark方差膨胀因子_22

则矩阵

spark方差膨胀因子 方差膨胀因子的值_方差_23

 称为n维随机变量

spark方差膨胀因子 方差膨胀因子的值_spark方差膨胀因子_24

 的协方差矩阵。由于

spark方差膨胀因子 方差膨胀因子的值_机器学习_25

 ,因此协方差矩阵也是对称矩阵,方差构成了其对角线上的元素,协方差构成了非对角线上的元素。一般地,n 维随机变量的分布是不知道的,或者太复杂,以致数学上不易处理,因此在实际应用中协方差矩阵就显得十分重要了。协方差矩阵广泛用于统计学与机器学习等领域。