前言
我的上一篇文章给大家分析了线性回归的损失函数为什么是最小二乘,那么接下来给大家一下简单的演绎一下线性回归损失函数的最优解的推导过程。
场景
假设我们有由 个 维样本组成的矩阵 ,其中X的每一行对应一个样本,共 个样本,每一列对应样本的一个维度,共 维,还有额外的一维常数项,全为
解析式推导
上一篇文章得到的线性回归的损失函数为:
这里我们写成矩阵的形式:
求梯度:
找驻点,令 可得:
这就是我们求得的参数
适用性
实际上上述求得的参数
① 样本的特征维度较大( 以上),此时的计算量巨大。
② 不可逆,此时我们求得的参数
第一种情况,我们从正规方程的解析式就可以看出来,特征矩阵的维度越大,对于矩阵的乘法和求逆这个运算量是十分庞大的。
第二种情况,事实上我们可以证明矩阵 是一个半正定矩阵:
对于任意 维非零向量 来说:
令 :
所以矩阵
那么这种情况下我们在原先的正规方程中加入了 扰动,使得:
而矩阵 被证明是正定的,即它也是可逆的,这里不再赘述。
通过这个改良后的解析式,我们可以很容易就得到带有正则化项的损失函数:
对于以上两种情况我们可以都使用梯度下降法(Gradient Descent)或者牛顿法去求解最优解。