向量的范数,表示这个原有集合的大小。
矩阵的范数,表示这个变化过程的大小的一个度量。
0范数,向量中非零元素的个数。
1范数,绝对值之和。
2范数,模。
最小二乘法计算线性回归模型参数时,如果数据集合矩阵存在多重共线性,那么最小二乘法对输入变量中的噪声非常敏感,其解会极其不稳定。
中的w会特别大。为限制w的增长,引入脊回归(Ridge Regression)和套索回归(Lasso Regression)。
为限制模型参数w的数值大小,在原模型的目标函数加上一个惩罚项,这个过程叫正则化(Regularization)。正则化也是防止过拟合的有效手段。
如果惩罚项是参数的l2范数,就是脊回归。
如果惩罚项是参数的l1范数,就是套索回归。
脊回归的损失函数:
这里α是平衡损失和正则项之间的一个系数,α≥0。其解为
α的数值越大,那么正则项,也是惩罚项的作用就越明显;α的数值越小,正则项的作用就越弱。α的选择是个比较麻烦的问题,最简单的模型选择的方法就是交叉验证(cross-validation)。kernel ridge regression即使用核技巧的岭回归,它的最小二乘解为
,
这里k是核函数。核函数是将信号映射到高维。其定义为:
核函数:是映射关系
的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数。
linear regression的缺点是比较受限制,但在计算复杂度方面,当数据量比维度大很多,线性回归的计算是比较高效的。kernel ridge regression比较灵活,适合做复杂的拟合。如果数据量很大,不适合使用这个方法。
核岭回归适用于解决小样本的非线性回归问题,随着问题规模的扩大不再适用,而且抗噪声能力不强。
所以,线性方法和核方法的差别在于计算效率和针对复杂问题灵活性的权衡和折中。