关于期望、方差、协方差、协方差矩阵的定义和计算:🔗

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_02

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布_03

vif方差膨胀因子R语言 方差膨胀因子vif计算_vif方差膨胀因子R语言_04

期望是线性的。方差(variance)衡量的是对数据x依据它的概率分布采样时,随机变量x的函数值会呈现多大的差异。方差的平方根为标准差(standard deviation)。协方差(covariance)在某种意义上给出了两个变量线性相关性的强度。

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布_05

以下部分内容参考链接:🔗

普通的伯努利分布和二项分布

首先,假设我们扔了一个不均匀的硬币,也就是说,一个正面和反面概率不相等的硬币。正面向上的概率是p,和前面一样仍然用X表示正面的数量。(可以是0或1。)

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布_06

被称为参数为p的伯努利分布,简称Bernoulli(p)。继续思考,如果我们投掷这种不均匀的硬币N次,可以得到

vif方差膨胀因子R语言 方差膨胀因子vif计算_概率分布_07

这被称为参数为n和p的二项分布,或者简写为b(n,p)。实际上伯努利分布就是n=1时的二项分布。

vif方差膨胀因子R语言 方差膨胀因子vif计算_vif方差膨胀因子R语言_08

正态分布

一个非常重要的连续分布就是所谓的正态分布(或者用另一个名字叫高斯)。你肯定在某个时候遇到过它,尽管你可能不知道它是正态分布。如果它有以下的密度函数,我们则称X是均值为μ和方差为σ²的正态分布,或者简称为N(μ, σ²)。

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布_09

这在现实生活中经常出现,例如人们的身高往往会显示出这种分布。我们将在以后的旅程中多次遇到它。均值描述的是钟形曲线的中心。从符号上看,N(μ, σ²)的概率密度函数PDF通常表示为N(x | μ, σ²)。接下来我们都会用这个。

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_10

条件概率

用一个六面骰子掷。如果我们用X来表示投掷的结果,我们可以合理地假设

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布_11

假设你想打个赌。由你的朋友掷骰子,如果结果小于或等于3,你就赢了。否则,你会损失相同数量的金额。很容易看出,默认情况下,你获胜的概率是1/2。然而,你的朋友在掷骰子后告诉你结果是偶数。你现在赢的机会有多大?直觉上,你现在的机会变小了,因为只有2分你才能赢,如果是4分或6分你就会输。因此,实验的附加信息改变了潜在的概率分布。

这个概念可以数学形式化为条件概率。假设有两个事件,A和B。在我们的具体例子中,A 表示投掷的结果小于或等于3,而B 表示投掷的结果是偶数。事件A在事件B已经发生条件下的发生概率称为在B的条件下A的概率  ,用P(A | B)表示,可用下式计算

vif方差膨胀因子R语言 方差膨胀因子vif计算_概率分布_12

在我们的例子中,P(A and B) = 1/6,而P(B) = 1/2,所以我们获胜的机会是P(A | B) = 1/3。

后验概率和贝叶斯定理

为了了解条件概率如何影响我们的机器学习问题,我们需要跳到另一个概念上。让我们再次回顾一下抛硬币的例子!这次硬币还是不均匀,所以正面的概率不是1/2。我们假设

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布_13

其中p属于[0,1]。问题是,我们不知道它的确切值,我们只能从数据中猜测。换句话说,我们要估计它的概率分布。p是我们掷硬币实验中的一个参数。(为了清楚起见,我们这里有两个分布:一个描述抛硬币的结果,而第二个描述我们对给定硬币正面向上概率的看法。)

假设我们手里拿着那枚硬币,然后把它抛向空中十次的事件E,结果是这样

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_14

也就是说,三反七正。用概率的语言,让E来描述事件“十次有七次正面”。所以,我们想知道的是:P(p|E) 这被称为后验概率,因为它描述了我们在观察一些数据后对硬币的看法。注意,这是一个连续的概率分布,因为可以假设p是0到1之间的任何值。我们怎么计算这个?条件概率的一个基本性质在这里起到了重要作用。如果A和B是普通的事件,那么

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_15

换言之,以事件B为条件的事件A的概率可以用以事件A为条件的事件B的概率来表示,这就是贝叶斯(Bayes)定理,它同样适用于概率密度函数。这对我们有什么帮助呢?现在我们知道

vif方差膨胀因子R语言 方差膨胀因子vif计算_概率分布_16

这好极了。下面介绍这个公式中的三个部分。

  1)P(E | p)被称为似然,它很容易计算出来。我们在上一节中这样做了。在投掷七次正面的例子中

 

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_17

也就是说,它们是成比例的,等于乘上一个常数。这个常数对我们来说并不重要,原因将在后面解释。

  2)P(p)被称为先验概率,因为这是在我们观察到任何数据之前对硬币的认知。我们很合理地假设各种情况都是等可能的,所以

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_18

vif方差膨胀因子R语言 方差膨胀因子vif计算_概率分布_19

 


 

最大似然估计

vif方差膨胀因子R语言 方差膨胀因子vif计算_概率分布_20

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_21

vif方差膨胀因子R语言 方差膨胀因子vif计算_vif方差膨胀因子R语言_22

vif方差膨胀因子R语言 方差膨胀因子vif计算_vif方差膨胀因子R语言_23

vif方差膨胀因子R语言 方差膨胀因子vif计算_条件概率_24

极大似然估计:

vif方差膨胀因子R语言 方差膨胀因子vif计算_正态分布_25

极大后验估计:

vif方差膨胀因子R语言 方差膨胀因子vif计算_概率分布_26