1. 概述

正则化的定义:减少泛化误差而不是训练误差,即避免过拟合。
L2正则化(岭回归)
目标函数
岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习矩阵写法:岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_02

  • 岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_03(乘法因子)为0时,退化为线性回归的目标函数;
  • 岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_03很大时,所有权值都趋近于0。

在线性回归的基础上加入正则项 岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_05 后,能够避免过拟合。其本质是通过权重衰减,弱化不显著的特征所占权重,下文将论证这一点。

2. 原理和分析:权重衰减

目标函数为两个正数项相加,因此在优化过程中,两个正数项都要逐渐趋近于0。可知,该正则项实际的作用是希望权重越小越好。也就是说,希望忽略一些不重要的特征
下面先从岭回归的优化过程入手,来理解改算法是如何做到忽略不重要特征的


下证:在岭回归训练过程中的每一步迭代都对当前的权重矩阵进行了收缩

为简单起见,忽略偏置偏置的迭代,只观察权重的迭代。此时岭回归具有以下目标函数:
岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_06其中岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_07为线性回归的目标函数。对岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_08求导得到梯度为岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_09使用单步梯度下降更新权重岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_10整理得到岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_11对比线性回归的权重迭代过程可知,岭回归的迭代过程中首先收缩了权重向量,然后再进行更新。也就是说,在每一步迭代都对当前的权重矩阵进行了收缩


下证:在整个训练过程中,Hessian矩阵特征值越小的方向所对应权重被收缩的比例越大。

下面将分析,在整个训练过程中(即不再关注单步迭代,而是整个迭代过程),权值究竟是如何被缩放的。

先考虑线性回归的情况:
岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_12未正则化的目标函数(即线性回归)取得最小训练误差时的权重向量,即岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_13,并在岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_12的邻域对目标函数做二次近似(泰勒级数近似),由于训练误差最小时处于极值点,函数的一阶导数为零:岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_15其中 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_16岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_07岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_12 处计算得关于 岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_19 的Hessian矩阵。
其梯度为:岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_20
此处需要注意,因为岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_12岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_07的一个最优解,可以得到 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_23

证明:凸函数的Hessian矩阵一定是半正定的
函数的泰勒二阶等价:岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_24
凸函数的充要条件:岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_25
因此岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_26
岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_27
也就是矩阵岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_28满足半正定矩阵定义。

再分析岭回归的情况:
上面已经求得岭回归的梯度为岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_09使用变量 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_30 表示岭回归的最优点,和之前求得的岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_31代入上述梯度公式,且最优点的梯度为0,得岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_32解得岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_33因为 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_16 是半正定的,所以 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_16 是实对称的,因此可以使用特征分解(谱分解),将其分解为一个对角矩阵 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_36 和一组特征向量的标准正交基 岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_37,即 岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_38,将其带入上式得到岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_39可以得出结论:权重衰减的效果是沿着由 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_23 的特征向量所定义的轴缩放 岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_41,根据 岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_42 因子缩放与 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_23岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_44 个特征向量对齐的 岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_41 的分量。沿着 岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_23 特征值较大的方向 (如 岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_47)正则化的影响较小。而 岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_48


几何角度理解这种效应:帮助算法往收益最大的方向下降,尽力忽视收益小的方向

岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_49


上图中,实线椭圆为不加正则项的目标函数(线性回归)等值线,虚线圆圈表示 L2 正则化项的等值线。目标函数 岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_07 在第一维的变化速度很小,等值线稀疏,Hessian矩阵的第一特征值小,因此当 岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_51 水平移动时,目标函数不会变化太多,因为目标函数对这个方向没有强烈的偏好,所以正则化项对该轴具有强烈的影响;相反,目标函数 岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_07 在第二维的变化速度很大,等值线密集,Hessian矩阵的第二特征值大,因此当 岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_51 竖直移动时,目标函数会更快速的变化,权重衰减对 岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_54

只有在显著减小目标函数方向上的参数会保留得相对完好。在无助于目标函数减小的方向(对应 Hessian 矩阵较小的特征值)上改变参数不会显著增加梯度。这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。 防止算法在无必要的方向上下降,即防止了过拟合。


机器学习的角度理解这种效应:方差越小的特征(包含信息量越小的特征)所对应的权重缩减越大

以分类任务为例,当特征的方差为0时,不管该样本属于什么类别,他们都拥有相同的值,即该特征无法帮助分类,因此可以认为方差越小的特征所含有的信息量越少。如果拘泥于含有信息量很少的特征,则容易发生过拟合。比如,我们需要分类咖啡和巧克力,用于训练的样本中咖啡的颜色相比巧克力几乎相同(样本特征方差不大),如果我们以这个特征分类,即认为深色一些的都是咖啡,当真实样本中出现牛奶咖啡,算法就会将其误分类为巧克力,即发生了过拟合。下面将从机器学习的角度,来揭示该算法是如何帮助忽视信息量小的特征以实现防止过拟合的:
线性回归的代价函数是平方误差之和:
岭回归标准化的方程怎么还原 岭回归的目标函数_机器学习_55添加正则项后,代价函数变为:
岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_56当代价函数在理想情况下被优化为0时,线性回归的解为:岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_57而正则后的解为岭回归标准化的方程怎么还原 岭回归的目标函数_计算机视觉_58
式中岭回归标准化的方程怎么还原 岭回归的目标函数_深度学习_59与协方差矩阵岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_60成正比(通常会对数据进行正则化处理,可以认为数据都进行了demean操作,如果没有进行正则化,这里就变成二范数越小影响越大),L2 正则项将这个矩阵替换为岭回归标准化的方程怎么还原 岭回归的目标函数_岭回归标准化的方程怎么还原_61。这个矩阵的对角项对应每个输入特征的方差,也就是说方差越大,受到的影响越小。L2正则化能 让学习算法 ‘‘感知’’ 到具有较高方差的输入岭回归标准化的方程怎么还原 岭回归的目标函数_线性回归_62,因此信息量较少的特征的权重将会收缩。


与PCA的联系

PCA同样通过协方差矩阵的特征值分解,将较小的特征值直接置零,即也是缩减了方差较小的特征的权重,从而忽略了含有信息量少的特征。

参考文献

Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.