目录
1、数学期望(均值)
2、方差 D(X) 或 Var(X)
3、协方差 Cov(X,Y)
4、相关系数 ρ
5、协方差矩阵
一句话概括:期望反映了平均水平,方差反映了数据波动程度,协方差反映了两个随机变量间的相关性(有量纲),相关系数反映了两个随机变量间无量纲的相关性。
1、数学期望(均值)
对随机变量及其概率的加权平均:
这里说的期望也就是均值,在统计学中大多数情况下是以样本来代替整体,因此样本的均值计算公式为:
2、方差 D(X) 或 Var(X)
用来了解实际指标与平均值之间的偏差情况,即反映了数据取值的分散程度。
若 X 取值集中,则其方差较小,反之, X 越分散其方差越大。
D(X) 满足以下性质:
当 X 与 Y 满足独立同分布(iid)时,
,此时:
这里的
就是后面要说的 协方差。另外 标准差(均方差)的计算公式为:
,与 X 具有相同的量纲。
在样本分析中,方差的计算公式为:
注意:这里除以的是1/(n-1)。
方差计算中为什么会出现除以 n 和除以 n-1 两种情况?:
除以 n计算的是总体方差 ,除以 n-1计算的是样本方差 (也即总体方差的无偏估计)。但是现实中计算总体方差往往是不切实际的,而统计学的研究内容之一就是用样本推测总体,因此我们就常使用样本方差来代替总体情况。
为什么计算样本方差时是除以 n-1 呢?因为我们在计算样本方差前一定会计算样本均值 x (换句话说,会对样本求和),这就导致样本的 n 项如果确定了 n-1 项的话,第 n 项就一定可以确定,即自由度是 n-1,所以每项出现的概率是 1/(n-1) ,因此要除以 n-1。用线性代数的角度来说,这 n 个量不是独立的,若将 n 个量看成向量的话是线性相关的,可以由 n-1 个线性无关的向量表示。
如果除以 n 代表是在整体数据上做计算,此时所有的量的出现概率都是 1/n,因此此时的方差 的计算是除以 n。但是这种情况大多是理想情况下的计算方式,而现实中绝大部分情况都是以样本估计总体,因此我们常见的方差计算公式就是除以 n-1 了。
3、协方差 Cov(X,Y)
协方差用以描述两个变量间的相关性。协方差是一个具有量纲的量。
若X 与 Y 相互独立,则
。
4、相关系数 ρ
相关系数也用以描述两个变量间的相关性,但与协方差不同的是,相关系数是一个没有量纲的量,公式如下。
另外,称
为X、Y的标准化。则有:
相关系数的性质:
- 。 的值越大说明线性相关程度就越大, 值较大时称 X 与 Y 的线性相关度好; 时说明 X 与 Y 不存在线性关系,但可能存在其他关系,如对于服从 上的随机变量X来说,若X1=sinX,X2=cosX,虽然 ,但满足 。
- 的充要条件:存在常数a、b,使得
5、协方差矩阵
协方差矩阵用来描述多维随机变量不同维度间的协方差。
设n维随机变量
的二阶协方差为
则矩阵
称为n维随机变量
的协方差矩阵。由于
,因此协方差矩阵也是对称矩阵,方差构成了其对角线上的元素,协方差构成了非对角线上的元素。一般地,n 维随机变量的分布是不知道的,或者太复杂,以致数学上不易处理,因此在实际应用中协方差矩阵就显得十分重要了。协方差矩阵广泛用于统计学与机器学习等领域。