vif方差膨胀因子R语言方差膨胀因子vif计算

转载

mob64ca14150f43 2024-06-14 14:33:01

文章标签 vif方差膨胀因子R语言概率分布正态分布条件概率 文章分类 R语言后端开发

关于期望、方差、协方差、协方差矩阵的定义和计算：🔗

vif方差膨胀因子R语言方差膨胀因子vif计算_正态分布

vif方差膨胀因子R语言方差膨胀因子vif计算_条件概率_02

vif方差膨胀因子R语言方差膨胀因子vif计算_正态分布_03

vif方差膨胀因子R语言方差膨胀因子vif计算_vif方差膨胀因子R语言_04

期望是线性的。方差（variance）衡量的是对数据x依据它的概率分布采样时，随机变量x的函数值会呈现多大的差异。方差的平方根为标准差（standard deviation）。协方差（covariance）在某种意义上给出了两个变量线性相关性的强度。

vif方差膨胀因子R语言方差膨胀因子vif计算_正态分布_05

以下部分内容参考链接：🔗

普通的伯努利分布和二项分布

首先，假设我们扔了一个不均匀的硬币，也就是说，一个正面和反面概率不相等的硬币。正面向上的概率是p，和前面一样仍然用X表示正面的数量。（可以是0或1。）

vif方差膨胀因子R语言方差膨胀因子vif计算_正态分布_06

被称为参数为p的伯努利分布，简称Bernoulli(p)。继续思考，如果我们投掷这种不均匀的硬币N次，可以得到

vif方差膨胀因子R语言方差膨胀因子vif计算_概率分布_07

这被称为参数为n和p的二项分布，或者简写为b(n,p)。实际上伯努利分布就是n=1时的二项分布。

vif方差膨胀因子R语言方差膨胀因子vif计算_vif方差膨胀因子R语言_08

正态分布

一个非常重要的连续分布就是所谓的正态分布（或者用另一个名字叫高斯）。你肯定在某个时候遇到过它，尽管你可能不知道它是正态分布。如果它有以下的密度函数，我们则称X是均值为μ和方差为σ²的正态分布，或者简称为N(μ, σ²)。

vif方差膨胀因子R语言方差膨胀因子vif计算_正态分布_09

这在现实生活中经常出现，例如人们的身高往往会显示出这种分布。我们将在以后的旅程中多次遇到它。均值描述的是钟形曲线的中心。从符号上看，N(μ, σ²)的概率密度函数PDF通常表示为N(x | μ, σ²)。接下来我们都会用这个。

vif方差膨胀因子R语言方差膨胀因子vif计算_条件概率_10

条件概率

用一个六面骰子掷。如果我们用X来表示投掷的结果，我们可以合理地假设

vif方差膨胀因子R语言方差膨胀因子vif计算_正态分布_11

假设你想打个赌。由你的朋友掷骰子，如果结果小于或等于3，你就赢了。否则，你会损失相同数量的金额。很容易看出，默认情况下，你获胜的概率是1/2。然而，你的朋友在掷骰子后告诉你结果是偶数。你现在赢的机会有多大？直觉上，你现在的机会变小了，因为只有2分你才能赢，如果是4分或6分你就会输。因此，实验的附加信息改变了潜在的概率分布。

这个概念可以数学形式化为条件概率。假设有两个事件，A和B。在我们的具体例子中，A 表示投掷的结果小于或等于3，而B 表示投掷的结果是偶数。事件A在事件B已经发生条件下的发生概率称为在B的条件下A的概率，用P(A | B)表示，可用下式计算

vif方差膨胀因子R语言方差膨胀因子vif计算_概率分布_12

在我们的例子中，P(A and B) = 1/6，而P(B) = 1/2，所以我们获胜的机会是P(A | B) = 1/3。

后验概率和贝叶斯定理

为了了解条件概率如何影响我们的机器学习问题，我们需要跳到另一个概念上。让我们再次回顾一下抛硬币的例子！这次硬币还是不均匀，所以正面的概率不是1/2。我们假设

vif方差膨胀因子R语言方差膨胀因子vif计算_正态分布_13

其中p属于[0,1]。问题是，我们不知道它的确切值，我们只能从数据中猜测。换句话说，我们要估计它的概率分布。p是我们掷硬币实验中的一个参数。（为了清楚起见，我们这里有两个分布：一个描述抛硬币的结果，而第二个描述我们对给定硬币正面向上概率的看法。）

假设我们手里拿着那枚硬币，然后把它抛向空中十次的事件E，结果是这样

vif方差膨胀因子R语言方差膨胀因子vif计算_条件概率_14

也就是说，三反七正。用概率的语言，让E来描述事件“十次有七次正面”。所以，我们想知道的是：P(p|E) 这被称为后验概率，因为它描述了我们在观察一些数据后对硬币的看法。注意，这是一个连续的概率分布，因为可以假设p是0到1之间的任何值。我们怎么计算这个？条件概率的一个基本性质在这里起到了重要作用。如果A和B是普通的事件，那么

vif方差膨胀因子R语言方差膨胀因子vif计算_条件概率_15