1.协方差(Covariance)

 

        在概率论和统计学中用于衡量两个变量的总体误差,方差是协方差的一种特殊情况(两个变量相同)。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差Java 协方差的性质_深度学习

 协方差用于表示变量间的相互关系:正相关、负相关、不相关

正相关:假设有两个变量x和y,若x越大y越大;x越小y越小则x和y为正相关。

负相关:假设有两个变量x和y,若x越大y越小;x越小y越大则x和y为负相关。

不相关:假设有两个变量x和y,若x和y变化无关联则x和y为负相关。

协方差Java 协方差的性质_人工智能_02

 维度多的时候可以用协方差矩阵来表示,公式如下:

协方差Java 协方差的性质_人工智能_03

注意:协方差矩阵为对称矩阵并且对角线上的元素为各维度的方差。

 2.多维高斯分布

对多维高斯分布的理解_qq_42877938的博客-_三维高斯分布

3.马氏距离

以标准单位表示的距离

在统计学中,我们有时会根据数据的规模来衡量“接近度”或“远度”。 通常“尺度”意味着“标准偏差”。对于单变量数据,我们说与平均值相差一个标准差的观测值比相差三个标准差的观测值更接近平均值。(您还可以通过指定两个观测值之间的距离来指定它们之间的距离。

对于许多分布,例如正态分布,这种尺度的选择也对概率做出了陈述。具体来说,它更有可能观察到与平均值大约一个标准差的观测值,而不是观察一个距离几个标准差的观测值。为什么?因为概率密度函数在平均值附近较高,并且当您移开许多标准差时几乎为零。

对于正态分布数据,您可以通过计算所谓的 z 分数来指定与平均值的距离。对于值 x,x 的 z 得分是数量 z = (x-μ)/σ,其中 μ 是总体平均值,σ 是总体标准差。这是一个无量纲量,您可以将其解释为 x 与平均值的标准差数。

距离并不总是看起来的那样

您可以将这些想法推广到多元正态分布。 下图显示了与预测椭圆叠加的模拟双变量正态数据。图中的椭圆是生成数据的二元正态分布的 10%(最内层)、20%、... 和 90%(最外层)预测椭圆。预测椭圆是二元正态密度函数的轮廓。对于靠近原点的椭圆,例如 10% 预测椭圆,概率密度较高。对于距离较远的椭圆,例如 90% 预测椭圆,密度较低。

协方差Java 协方差的性质_人工智能_04

在图中,使用红色星星作为标记来显示两个观测值。第一个观测值位于坐标 (4,0),而第二个观测值位于坐标 (0,2)。问题是:哪个标记更接近原点?(原点是此分布的多元中心。

答案是,“这取决于你如何测量距离。欧几里得距离分别为 4 和 2,因此您可能会得出结论,(0,2) 处的点更接近原点。但是,对于此分布,Y 方向的方差小于 X 方向的方差,因此在某种意义上,点 (0,2) 比 (4,0) 离原点“更多标准差”。

请注意两个观测值相对于椭圆的位置。点 (0,2) 位于 90% 预测椭圆处,而 (4,0) 处的点位于大约 75% 预测椭圆处。 这是什么意思?这意味着 (4,0) 处的点“更接近”原点,因为您更有可能观察到 (4,0) 附近的观测值,而不是观察 (0,2) 附近的观测值。概率密度在 (4,0) 附近高于在 (0,2) 附近的概率密度。

从这个意义上说,预测椭圆是“标准差单位”的多元概括。您可以使用二元概率等值线来 将距离与二元平均值进行比较。如果包含 p 的等值线嵌套在包含 q 的等值线内,则点 p 比点 q 更近。

欧氏距离计算的是直线距离,好比把三维的压扁为二维的,计算两点的直线距离,马氏距离中含有了协方差,具有一定的空间信息,可以计算空间中的距离,所以,在点与点之间有协方差时,使用马氏距离计算更好。

 定义马哈拉诺比斯距离

您可以使用概率等值线来定义马氏距离。 马氏距离具有以下属性:

  • 它解释了每个方向的方差不同的事实。
  • 它考虑了变量之间的协方差。
  • 对于具有单位方差的不相关变量,它简化为熟悉的欧几里得距离。

对于单变量正态数据,单变量 z 得分对分布进行标准化(使其具有均值 0 和单位方差),并给出一个无量纲量,该量根据数据尺度指定从观测值到均值的距离。对于具有均值μ和协方差矩阵 Σ 的多元正态数据,您可以通过应用 Cholesky 变换来对变量进行去关联并标准化分布 z = L-1(x - μ),其中 L 是 Σ 的乔列斯基因子,Σ=LLT.

转换数据后,可以计算从点 z 到原点的标准欧几里得距离。为了摆脱平方根,我将计算欧几里得距离的平方,即2(z,0) = zTz. 这衡量一个点离原点有多远,它是 z 分数的多元泛化。

你可以重写 zTz 就原始相关变量而言。马哈尔的平方距离2(x,μ) 是
zTz
(L-1(x - μ))T(L-1(x - μ))
(x - μ)T(LLT)-1(x - μ)
(x - μ)TΣ-1(x - μ)
最后一个公式是马哈拉诺比斯距离平方的定义。派生使用多个矩阵标识,例如 (AB)T= BT一个T, (阿布)-1= B-1一个-1和 (A-1)T= (AT)-1.请注意,如果 Σ 是单位矩阵,则马氏距离减小到 x 和 μ 之间的标准欧几里得距离。

马氏距离考虑了每个变量的方差和变量之间的协方差。在几何上,它通过将数据转换为标准化的不相关数据并计算转换后数据的普通欧几里得距离来实现这一点。通过这种方式,马氏距离就像一个单变量 z 分数:它提供了一种测量距离的方法,该方法考虑了数据的规模。