前面说到线性回归和逻辑回归,都是广义的线性模型的一个特例,并且从广义线性模型出发可以解释线性回归模型和逻辑回归模型的概率意义。
介绍广义线性模型需要先介绍指数分布族:若某个随机变量Y的概率分布可以写成如下形式,
其中η是影响Y的自然参数,在某些分布中它是一个实数,某些分布中它可能是一个向量。T(y)是变量Y的充分统计量。则上述的概率分布形式称作指数分布族形式。大多数的概率分布都能写成指数分布族(Expfamily)的形式,广义线性模型基于的假设也是从指数分布族开始。
广义线性模型基于如下三个假设:
(1)P(y|x;θ) ~ Expfamily(η)。在我们的样本特征X,参数为θ的条件下,我们的预测值Y的概率分布可以写成指数分布族的形式。
(2)对于输入的X,我们总是需要输出一个预测值Y。在广义线性模型中,预测函数Y=hθ(x)=E[T(y)|x]
(3)自然参数η与θ,x的关系:广义线性模型中我们假设η=θTX。在大部分情况下,η是一个实数。在少数概率分布情况中,η是一个向量,那么ηi =θiX。
从第三个假设可以看出,广义线性模型的核心假设是自变量X是通过线性组合的方式影响因变量的,因此基于这种假设才被称为广义线性模型。前面说到线性回归、逻辑回归都是广义线性模型的特例。
线性回归:
线性回归是假设因变量直接由样本特征的线性组合得来。因此Y=θ TX + б,其中б表示误差,即真实的Y值肯定不可能与θ TX完全拟合,总是存在误差的。我们假设误差б服从高斯分布,б~N(0, σ 2)。误差由多种因素造成,例如Y表示房屋出售的价格,那么误差б可能受卖家心情、卖家心情的影响。误差受多种因素影响,这些因素假设彼此独立,那么我们可以认为误差服从高斯分布。那么Y也服从高斯分布Y~N(θ TX, σ 2),则
现在来验证广义线性模型的第一个假设,通过几步代数变换,可将高斯分布公式转化成指数分布族的形式,得到
因此高斯分布也能写成指数分布族的形式,因此基于假设二,那么我们的预测函数Y=h θ(x)=E[T(y)|x]=E[y|x],由于y服从高斯分布,因此y的期望为E[y|x]=θ TX,因此我们的预测函数即y=θ TX。下面需要确定参数θ的取值,由于我们已经知道Y的概率分布函数,那么基于样本我们可以使用极大似然估计的方法来确定 θ的取值:
似然函数为:
对数似然:
因此可以看出要让对数似然函数值最大,即让 最小,这也就是线性回归模型中优化的目标函数的由来。得到优化的目标函数后,应用牛顿法或梯度下降法求解θ即可。
逻辑回归:
逻辑回归是要解决分类问题,即输入一个X,判断这个X是否属于某一类,即输出值Y要么是0要么是1。因此可以认为Y的分布是伯努利分布。下面验证第一个假设,把伯努利分布转化成指数分布族的形式。
P(Y=1; φ ) = φ,P(Y=0;φ) = 1 - φ。因此服从伯努利分布的概率分布可以写为P(Y;φ) = φy(1-φ)1-y,将其写成指数分布族的形式。
因此伯努利分布也能写成指数分布族的形式,那么基于假设2我们的预测函数 Y=h θ(x)=E[T(y)|x]=E[Y|x]=φ, 可以解出
再基于假设三,则得到我们的预测函数是
这样便得到了我们逻辑回归的预测函数表达式,然后利用极大似然或者牛顿法求解θ即可。
Softmax回归:
逻辑回归适用于解决二分类问题,而Softmax回归是逻辑回归的扩展,可用于解决K分类问题。
我们可用多项式分布来进行建模,令P(y = i) =φi,i<=k,而由于各个概率相加得一,因此多项式分布的参数个数是k-1个。
定义运算I{真命题}=1, I{假命题}=0。因此Y的概率分布为:
在多项式分布中,T(y)!=y,这也是T(y)!=y的几个例子之一,T(y)是k-1维向量,定义T(y):
因此Y的概率分布可写为
可见多项式分布也能写成指数分布族的形式,则根据广义线性模型假设三,可解得
θi是一个向量与x同维数
因此根据广义线性模型的假设二,预测函数
即对于任意输入X,会得到一个k-1维的向量,第i维表示X属于第i类的概率。利用极大似然的方法可估计出θ的取值。
总结:
上面列举了广义线性模型的三个应用,可以感受到其应用的广泛性和方便性。对于现实中的一个机器学习问题,
我们只需要选择利用什么概率模型进行建模,如逻辑回归分类问题的伯努利分布、线性回归拟合问题中的高斯分布。
然后将其化成指数分布族的形式,就可以得到预测函数。然后利用极大似然估计算出参数值即可。