嵌入式选择:将特征选择嵌入到优化算法中,是隐式地选择。
LASSO:让算法逼迫一些属性的权重为0,即最小化,但实际上是通过最小化来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化,其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。
算法LASSO一举两得:降低过似合风险和得到“稀疏”解。
嵌入式选择与正则化
在有趣的距离与范数中,我们定义了等范数。
假定以某种方法迫使的一些分量为0(最小化),非零分量只有个,这时
即“作用于”等价于“作用于”,而,只有个属性,这就实现有“删维”的目的。 即它可以通过的“稀疏”(由于非零分量不一定排在前面,而是零星地分布,故称为“稀疏”)来实现的“删维”。
嵌入式选择是隐式地选择(算法逼迫一些属性的权重为0,即最小化),但实际上是通过最小化来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化。 将二者合在一起进行优化,即为【西瓜书式(11.7)】,称为LASSO。 其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。 因此,算法LASSO一举两得:降低过似合风险和得到“稀疏”解(实现了式(11.11)的效果)。
【西瓜书图11.2】在二维情形下,以直观的方式解释了:
- 正则化(岭回归)的最优点位于损失曲线(圆)与(圆)相切处。
- 正则化(LASSO)的最优点位于损失曲线(圆)与(正方形)相切处,而该正方形是一种特殊的正方形:顶点在坐标轴上(),故最优点在坐标轴上,即另一坐标为0,这即为“稀疏”解。
【西瓜书式(11.7)】是基于线性回归目标【西瓜书式(11.5)】构造的正则化,推广到一般,设优化目标函数为,则正则化为【西瓜书式(11.8)】。
通常用近端梯度下降(PGD)求解正则化问题。
与梯度下降法不同的是:这里不是对整体()使用泰勒展式,而是对其中的一部分(即)使用泰勒展式,得到【西瓜书式(11.10)】,如是就有了图11.3的求值过程(图中的式子编号均为【西瓜书中的式子编号】)。
图11.3 近端梯度下降(PGD)
图11.3 中,从【西瓜书式(11.13)】求解如下:
其中,当时取“+”号。 这里由于下标被样本编号占用,故用上标表示向量的分量。
由8.3 AdaBoost算法的详细推导式 (8.17)的数学知识,对式(11.12)的最小化变为
平方和式(11.13):当各项为0时,达到最小值0。 即解为
其中,当时取“”号。 整理即为【西瓜书式(11.14)】。