L1和L2正则都是比较常见和常用的正则化项,都可以达到防止过拟合的效果。L1正则化的解具有稀疏性,可用于特征选择。L2正则化的解都比较小,抗扰动能力强

L2正则化

  对模型参数

l2正则逻辑回归表达式_正则

的L2正则项为    

l2正则逻辑回归表达式_损失函数_02

即权重向量

l2正则逻辑回归表达式_损失函数_03

中各个元素的平方和,

l2正则逻辑回归表达式_正则_04

通常取1/2。L2正则也经常被称作“权重衰减”(weight decay)“岭回归”

  设带L2正则化的损失函数:

    

l2正则逻辑回归表达式_正则化_05

假设损失函数在二维上求解,则可以画出图像

        

l2正则逻辑回归表达式_l2正则逻辑回归表达式_06

彩色实线是

l2正则逻辑回归表达式_正则化_07

的等值线,黑色实线是L2正则的等值线。二维空间(权重向量只有

l2正则逻辑回归表达式_l2正则逻辑回归表达式_08


l2正则逻辑回归表达式_正则化_09

)上,L2正则项的等值线是圆,与

l2正则逻辑回归表达式_正则化_10

的等值线相交时

l2正则逻辑回归表达式_l2正则逻辑回归表达式_08


l2正则逻辑回归表达式_正则化_09

等于零的概率很小。所以使用L2正则项的解不具有稀疏性。在求解过程中,L2通常倾向让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。参数足够小,数据偏移得多一点也不会对结果造成什么影响,可以说“抗扰动能力强”。

L1正则化

  对模型参数

l2正则逻辑回归表达式_正则

的L1正则项为

      

l2正则逻辑回归表达式_l2正则逻辑回归表达式_14

   设带L1正则化的损失函数

      

l2正则逻辑回归表达式_l2正则逻辑回归表达式_15

  假设损失函数在二维上求解,则可以画出图像

        

l2正则逻辑回归表达式_损失函数_16

彩色实线是

l2正则逻辑回归表达式_正则化_07

的等值线,黑色实线是L1正则的等值线。二维空间(权重向量只有

l2正则逻辑回归表达式_l2正则逻辑回归表达式_08


l2正则逻辑回归表达式_正则化_09

)上,L1正则项的等值线是方形,方形与

l2正则逻辑回归表达式_正则化_10

的等值线相交时相交点为顶点的概率很大,所以

l2正则逻辑回归表达式_l2正则逻辑回归表达式_08


l2正则逻辑回归表达式_正则化_09

等于零的概率很大。所以使用L1正则项的解具有稀疏性。  推广到更大维度空间也是同样道理,L2正则项的等值线或等值面是比较平滑的,而L1正则项的等值线或等值面是比较尖锐的,所以这些突出的点与

l2正则逻辑回归表达式_正则化_07

接触的机会更大,而在这些突出的点上,会有很多权值等于0。

  由L1正则化导出的稀疏性质已被广泛用于特征选择,特征选择可以从可用的特征子集中选择有意义的特征。