广义线性模型头歌

转载

mob64ca141a683a 2024-07-16 07:59:40

文章标签 广义线性模型头歌广义线性模型线性回归逻辑回归 softmax 文章分类 机器学习人工智能

前面说到线性回归和逻辑回归，都是广义的线性模型的一个特例，并且从广义线性模型出发可以解释线性回归模型和逻辑回归模型的概率意义。

介绍广义线性模型需要先介绍指数分布族：若某个随机变量Y的概率分布可以写成如下形式，

广义线性模型头歌_线性回归

其中η是影响Y的自然参数，在某些分布中它是一个实数，某些分布中它可能是一个向量。T(y)是变量Y的充分统计量。则上述的概率分布形式称作指数分布族形式。大多数的概率分布都能写成指数分布族（Expfamily）的形式，广义线性模型基于的假设也是从指数分布族开始。

广义线性模型基于如下三个假设：

（1）P(y|x;θ) ~ Expfamily(η)。在我们的样本特征X，参数为θ的条件下，我们的预测值Y的概率分布可以写成指数分布族的形式。

（2）对于输入的X，我们总是需要输出一个预测值Y。在广义线性模型中，预测函数Y=h_θ(x)=E[T(y)|x]

（3）自然参数η与θ，x的关系：广义线性模型中我们假设η=θ^TX。在大部分情况下，η是一个实数。在少数概率分布情况中，η是一个向量，那么η_i =θ_iX。

从第三个假设可以看出，广义线性模型的核心假设是自变量X是通过线性组合的方式影响因变量的，因此基于这种假设才被称为广义线性模型。前面说到线性回归、逻辑回归都是广义线性模型的特例。

线性回归：

线性回归是假设因变量直接由样本特征的线性组合得来。因此Y=θ ^TX + б，其中б表示误差，即真实的Y值肯定不可能与θ ^TX完全拟合，总是存在误差的。我们假设误差б服从高斯分布，б~N(0, σ ²)。误差由多种因素造成，例如Y表示房屋出售的价格，那么误差б可能受卖家心情、卖家心情的影响。误差受多种因素影响，这些因素假设彼此独立，那么我们可以认为误差服从高斯分布。那么Y也服从高斯分布Y~N(θ ^TX, σ ²)，则

现在来验证广义线性模型的第一个假设，通过几步代数变换，可将高斯分布公式转化成指数分布族的形式，得到

广义线性模型头歌_softmax_02

因此高斯分布也能写成指数分布族的形式，因此基于假设二，那么我们的预测函数Y=h _θ(x)=E[T(y)|x]=E[y|x]，由于y服从高斯分布，因此y的期望为E[y|x]=θ ^TX，因此我们的预测函数即y=θ ^TX。下面需要确定参数θ的取值，由于我们已经知道Y的概率分布函数，那么基于样本我们可以使用极大似然估计的方法来确定 θ的取值：

似然函数为：

广义线性模型头歌_广义线性模型头歌_03