协方差

  • 1.协方差
  • 1.1 相关性
  • 1.2 计算协方差
  • 1.3 协方差与相关性
  • 1.4 协方差能让我们知道些什么信息?
  • 1.5 协方差无法让我们知道哪些信息?


1.协方差

笔记来源:Covariance, Clearly Explained!!!

协方差用于刻画两个随机变量是否有相关性
相关系数用于刻画两个随机变量相关性的强弱

1.1 相关性

以细胞中的基因X和基因Y的数量为例,下面给出了5个细胞中,每个细胞分别含有的基因X和基因Y的数量,我们计算出了这5个细胞含基因X数量的样本均值 java 协方差公式 协方差实例_概率论 和含基因Y数量的样本均值 java 协方差公式 协方差实例_概率论_02,我们观察这细胞中基因X的数量和基因Y的数量有没有什么相关性

java 协方差公式 协方差实例_概率论_03


显然,如下图所示,大体上当细胞中基因X的数量增加时,基因Y的数量也在增加,这表现出一种正相关性

java 协方差公式 协方差实例_java 协方差公式_04

我们来看一看另一组样本数据

java 协方差公式 协方差实例_数据_05

显然,如下图所示,大体上当细胞中基因X的数量增加时,基因Y的数量却在减小,这表现出一种负相关性

java 协方差公式 协方差实例_概率论_06

我们再来看另外两组样本数据

第一组样本数据:大体上当基因X的数量增加时,基因Y的数量基本保持不变,即二者几乎无相关性

第二组样本数据:大体上当基因Y的数量增加时,基因X的数量基本保持不变,即二者几乎无相关性

java 协方差公式 协方差实例_java 协方差公式_07

1.2 计算协方差

每个细胞中基因X的数量为 java 协方差公式 协方差实例_协方差_08、基因Y的数量为 java 协方差公式 协方差实例_数据_09
5个细胞中所有基因X数量的平均值 java 协方差公式 协方差实例_概率论、所有基因Y数量的平均值 java 协方差公式 协方差实例_概率论_02
细胞数量为 java 协方差公式 协方差实例_数据_12
无偏估计要除以 java 协方差公式 协方差实例_数据_13,详见本人博客:有偏样本方差、无偏样本方差

java 协方差公式 协方差实例_java 协方差公式_14


由上我们观察到,这5个细胞中的基因X的数量和基因Y的数量呈现正相关性,而计算得到的协方差也为正,即我们得到:当协方差 java 协方差公式 协方差实例_相关性_15时,数据呈现正相关性

java 协方差公式 协方差实例_概率论_16


类似的,当协方差 java 协方差公式 协方差实例_java 协方差公式_17时,数据呈现负相关性

java 协方差公式 协方差实例_概率论_18


当协方差java 协方差公式 协方差实例_数据_19时,数据没有相关性

java 协方差公式 协方差实例_协方差_20


无相关性的三种情况

java 协方差公式 协方差实例_概率论_21

1.3 协方差与相关性

协方差之正负号显示着变量的相关性

两组数据呈现正相关性,协方差 java 协方差公式 协方差实例_相关性_22
两组数据呈现负相关性,协方差 java 协方差公式 协方差实例_数据_23
两组数据呈现无相关性,协方差 java 协方差公式 协方差实例_概率论_24

java 协方差公式 协方差实例_协方差_25

1.4 协方差能让我们知道些什么信息?

协方差的值可以告诉我们样本数据与拟合直线的接近程度

java 协方差公式 协方差实例_java 协方差公式_26

协方差的值越大,样本数据离拟合直线越远

java 协方差公式 协方差实例_数据_27

1.5 协方差无法让我们知道哪些信息?

协方差无法告知我们拟合直线的斜率大小

java 协方差公式 协方差实例_概率论_28


协方差无法告知我们样本数据的集中程度

java 协方差公式 协方差实例_数据_29


协方差的应用之一:主成分分析(Principal Component Analysis,PCA)