在练习机器学习时,可能会选择决定是使用L1范数还是L2范数进行正则化,还是作为损失函数等。

L1范数也称为最小绝对偏差(LAD),最小绝对误差(LAE)。它基本上是最小化目标值(i)和估计值(f(x i)之间的绝对差值(S)的总和:

 

Abias绝对偏差 绝对偏差是_解决方案

L2范数也称为最小二乘法。它基本上是最小化目标值(i)和估计值(f(x i之间的差值(S)的平方和

Abias绝对偏差 绝对偏差是_最小化_02

L1范数和L2范数的差异可以迅速归纳如下:

Abias绝对偏差 绝对偏差是_解决方案_03

Robustness,维基解释如下:

最小绝对偏差的方法由于其与最小二乘法相比的鲁棒性而在许多领域中得到应用。最小的绝对偏差是稳健的,因为它可以抵抗数据中的异常值。这可能有助于可以安全有效地忽略异常值的研究。如果注意任何和所有异常值都很重要,那么最小二乘法是更好的选择。

直观地说,由于L2范数对误差进行平方(如果误差> 1则增加很多),模型将看到比L1范数大得多的误差(e vs e 2),因此模型对此示例,并调整模型以最小化此错误。如果此示例是异常值,则将调整模型以最小化此单个异常值情况,但会牺牲许多其他常见示例,因为与单个异常值情况相比,这些常见示例的错误较小。

Stability,维基百科的解释如下:

最小绝对偏差方法的不稳定性意味着,对于基准的小的水平调整,回归线可能跳跃很大量。该方法具有一些数据配置的连续解决方案; 但是,通过移动少量数据,可以“跳过”具有跨越区域的多个解决方案的配置。在通过该解决方案区域之后,最小绝对偏差线的斜率可能与前一线的斜率差别很大。相比之下,最小二乘解是稳定的,因为对于数据点的任何小调整,回归线总是只会轻微移动; 也就是说,回归参数是数据的连续函数。

最好用下面的图片解释:

Abias绝对偏差 绝对偏差是_Abias绝对偏差_04

顶部代表L1范数,底部代表L2范数。第一列分别表示回归线如何使用L1范数和L2范数拟合这三个点。

假设我们将绿点水平向右略微移动,L2范数仍保持原始回归线的形状,但抛出更陡峭的抛物线。然而,在L1范数情况下,回归线的斜率现在更加陡峭,影响其他所有预测甚至超出最右边的点。因此,所有未来的预测都比L2标准结果受到更严重的影响。

假设我们将绿点更加水平地移动到第一个黑点(第三列)之后的右侧,L2范数现在也改变了一点但不像L1范数那样,斜率已完成转向方向。斜率的这种变化肯定会使之前的所有结果无效。

通过对数据点的微小扰动,回归线会发生很大变化。这就是L1范数的不稳定性(相对于L2范数的稳定性)在这里意味着什么。

解决方案的唯一性是一个更简单的情况,但需要一点想象力。首先,这张图片如下:

Abias绝对偏差 绝对偏差是_最小化_05

 

绿线(L2范数)是唯一的最短路径,而红色,蓝色,黄色(L1范数)对于相同路线都是相同的长度(= 12)。将其推广到n维。这就是L2-norm具有独特解决方案而L1-norm没有的原因。

内置特征选择  经常被提及作为L1范数的有用属性,而L2范数则不然。这实际上是L1范数的结果,它倾向于产生稀疏系数(如下所述)。假设模型有100个系数,但只有10个系数具有非零系数,这实际上是说“其他90个预测变量在预测目标值方面毫无用处”。L2范数产生非稀疏系数,因此没有这个属性。

稀疏性  指的是矩阵(或向量)中只有非常少的条目是非零的。L1范数具有产生具有零值的非常系数或具有很少大系数的非常小的值的特性。

计算效率。 L1范数没有解析解,但L2范数确实如此。这允许在计算上有效地计算L2范数解。然而,L1范数解决方案确实具有稀疏性属性,允许它与稀疏算法一起使用,这使得计算在计算上更有效。