Covariance/Correlation/Variogram简单介绍与区分
1.0 Variance方差
定义: 方差是对变异性的一种度量。它的计算方法是取均值的平方偏差的平均值。
意义: 表示数据集的扩散程度。数据越分散,方差与均值的关系就越大(方差越大)。
公式:
(1)总体方差:
(2)样本方差
总体方差和样本方差为什么不一样:
1.1 standard deviation标准差
定义: 标准偏差是一种度量数据集相对于其平均值的分散程度的统计数据,它被计算为方差的平方根。通过确定每个数据点相对于平均值的偏差,标准偏差计算为方差的平方根。即标准差来自于方差,每个值离平均值有多远。
为什么选用标准差作为变量的衡量标准:由于方差的单位比数据集的典型值大得多,因此很难直观地解释方差数。这就是为什么标准差通常被首选作为可变性的主要衡量标准。
意义: 如果数据点离平均值越远,则数据集中的偏差越大;因此,数据越分散,标准差越高。
公式:
Standard Deviation vs. Variance:标准差是方差的平方根。
1.2 Covariance协方差
定义: 在数学和统计学中,协方差是对两个随机变量之间关系的度量。该指标评估变量一起变化的程度。换句话说,它本质上是两个变量之间方差的度量。然而,该指标并不评估变量之间的依赖性。
特点: 协方差是以单位来衡量的。单位是通过乘以两个变量的单位来计算的。
分类:
(1)正协方差:表示两个变量倾向于向同一个方向移动。
(2)负协方差:表明两个变量倾向于反向移动。
公式:
(1)总体协方差
(2)样本协方差
变量:
1.3 Correlation相关系数
定义:
相关性是对两个变量之间关系的统计度量。这种测量方法最好用于证明彼此之间呈线性关系的变量。
意义:
数据的拟合可以用散点图直观地表示。使用散点图,我们可以大致评估变量之间的关系,并确定它们是否相关。
公式表示1:
公式表示2:
取值范围:
相关系数是一个表示变量之间关系强度的值。系数可以取-1到1之间的任何值。
- -1:完全负相关。变量倾向于向相反的方向移动(即,当一个变量增加时,另一个变量减少)。
- 0:不相关。变量之间没有关系。
- 1:完全正相关。变量趋向于向同一个方向移动(即,当一个变量增加时,另一个变量也会增加)。
协方差与相关系数的关系:
(1)协方差和相关都主要评估变量之间的关系。它们之间的关系最接近的类比是方差和标准差之间的关系。
(2)协方差度量的是两个随机变量相对于其期望值的总变异量。使用协方差,我们只能衡量关系的方向(变量是否倾向于串连移动或显示相反的关系)。然而,它并不表示关系的强度,也不表示变量之间的依赖性。
(3)==相关性衡量的是变量之间关系的强度。==相关性是协方差的尺度度量。它是无量纲。换句话说,相关系数总是一个纯值,不以任何单位衡量。
1.4 Variogram变差函数、变异函数
以下资料截图来源:http://wiki.gis.com/wiki/index.php/Variogram定义:
变异函数是描述空间随机场或随机过程Z(x)的空间依赖程度的函数。它被定义为位置x和y之间值的期望平方增量(Wackernagel 2003):
semivariogram:半方差函数Empirical Variogram
变差函数参数:
Variogram Models:
Variogram很好的学习资料(建议收藏系列):
The Variogram Basics: A visual introduction to one of the most useful geostatistical concepts