前言

我的上一篇文章给大家分析了线性回归的损失函数为什么是最小二乘,那么接下来给大家一下简单的演绎一下线性回归损失函数的最优解的推导过程。

场景

假设我们有由 回归问题 常用的损失函数 线性回归损失函数求导_线性回归回归问题 常用的损失函数 线性回归损失函数求导_损失函数_02 维样本组成的矩阵 回归问题 常用的损失函数 线性回归损失函数求导_线性回归_03 ,其中X的每一行对应一个样本,共 回归问题 常用的损失函数 线性回归损失函数求导_线性回归 个样本,每一列对应样本的一个维度,共 回归问题 常用的损失函数 线性回归损失函数求导_损失函数_02 维,还有额外的一维常数项,全为 回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_06

解析式推导

上一篇文章得到的线性回归的损失函数为:
回归问题 常用的损失函数 线性回归损失函数求导_线性回归_07
这里我们写成矩阵的形式:
回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_08
求梯度
回归问题 常用的损失函数 线性回归损失函数求导_线性回归_09
回归问题 常用的损失函数 线性回归损失函数求导_损失函数_10
回归问题 常用的损失函数 线性回归损失函数求导_拟合_11
回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_12
回归问题 常用的损失函数 线性回归损失函数求导_拟合_13

找驻点,令 回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_14 可得:
回归问题 常用的损失函数 线性回归损失函数求导_损失函数_15
回归问题 常用的损失函数 线性回归损失函数求导_损失函数_16
回归问题 常用的损失函数 线性回归损失函数求导_拟合_17
回归问题 常用的损失函数 线性回归损失函数求导_拟合_18
回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_19
回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_20
这就是我们求得的参数 回归问题 常用的损失函数 线性回归损失函数求导_拟合_21

适用性

实际上上述求得的参数 回归问题 常用的损失函数 线性回归损失函数求导_拟合_21

① 样本的特征维度较大( 回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_23 以上),此时的计算量巨大。
回归问题 常用的损失函数 线性回归损失函数求导_损失函数_24 不可逆,此时我们求得的参数 回归问题 常用的损失函数 线性回归损失函数求导_拟合_21

第一种情况,我们从正规方程的解析式就可以看出来,特征矩阵的维度越大,对于矩阵的乘法和求逆这个运算量是十分庞大的。

第二种情况,事实上我们可以证明矩阵 回归问题 常用的损失函数 线性回归损失函数求导_损失函数_24 是一个半正定矩阵:
对于任意 回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_27 维非零向量 回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_28 来说:
回归问题 常用的损失函数 线性回归损失函数求导_损失函数_29
回归问题 常用的损失函数 线性回归损失函数求导_线性回归_30 :
回归问题 常用的损失函数 线性回归损失函数求导_线性回归_31
所以矩阵 回归问题 常用的损失函数 线性回归损失函数求导_拟合_32
那么这种情况下我们在原先的正规方程中加入了 回归问题 常用的损失函数 线性回归损失函数求导_线性回归_33 扰动,使得:
回归问题 常用的损失函数 线性回归损失函数求导_损失函数_34
而矩阵 回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_35 被证明是正定的,即它也是可逆的,这里不再赘述。
通过这个改良后的解析式,我们可以很容易就得到带有正则化项的损失函数:
回归问题 常用的损失函数 线性回归损失函数求导_拟合_36
回归问题 常用的损失函数 线性回归损失函数求导_回归问题 常用的损失函数_37
对于以上两种情况我们可以都使用梯度下降法(Gradient Descent)或者牛顿法去求解最优解。