嵌入式选择:将特征选择嵌入到优化算法中,是隐式地选择。
LASSO:让算法逼迫一些属性的权重为0,即最小化lasso特征选择 python_学习,但实际上是通过最小化lasso特征选择 python_算法_02来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化lasso特征选择 python_算法_02,其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。
算法LASSO一举两得:降低过似合风险和得到“稀疏”解。

嵌入式选择与lasso特征选择 python_lasso特征选择 python_04正则化

在有趣的距离与范数中,我们定义了lasso特征选择 python_算法_05等范数。
假定以某种方法迫使lasso特征选择 python_算法_06的一些分量为0(最小化lasso特征选择 python_学习_07),非零分量只有lasso特征选择 python_lasso特征选择 python_08个,这时
lasso特征选择 python_lasso特征选择 python_09
即“lasso特征选择 python_学习_10作用于lasso特征选择 python_算法_06”等价于“lasso特征选择 python_lasso特征选择 python_12作用于lasso特征选择 python_机器学习_13”,而lasso特征选择 python_算法_14,只有lasso特征选择 python_lasso特征选择 python_08个属性,这就实现有“删维”的目的。 即它可以通过lasso特征选择 python_算法_06的“稀疏”(由于非零分量不一定排在前面,而是零星地分布,故称为“稀疏”)来实现lasso特征选择 python_学习_10的“删维”。

嵌入式选择是隐式地选择(算法逼迫一些属性的权重为0,即最小化lasso特征选择 python_学习_07),但实际上是通过最小化lasso特征选择 python_lasso特征选择 python_04来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化lasso特征选择 python_lasso特征选择 python_04。 将二者合在一起进行优化,即为【西瓜书式(11.7)】,称为LASSO。 其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。 因此,算法LASSO一举两得:降低过似合风险和得到“稀疏”解(实现了式(11.11)的效果)。

【西瓜书图11.2】在二维情形下,以直观的方式解释了:

  • lasso特征选择 python_算法_21正则化(岭回归)的最优点位于损失曲线(圆)与lasso特征选择 python_算法_22(圆)相切处。
  • lasso特征选择 python_算法_02正则化(LASSO)的最优点位于损失曲线(圆)与lasso特征选择 python_lasso特征选择 python_24(正方形)相切处,而该正方形是一种特殊的正方形:顶点在坐标轴上(lasso特征选择 python_最小化_25),故最优点在坐标轴上,即另一坐标为0,这即为“稀疏”解。

【西瓜书式(11.7)】是基于线性回归目标【西瓜书式(11.5)】构造的lasso特征选择 python_lasso特征选择 python_04正则化,推广到一般,设优化目标函数为lasso特征选择 python_机器学习_27,则lasso特征选择 python_lasso特征选择 python_04正则化为【西瓜书式(11.8)】。

通常用近端梯度下降(PGD)求解lasso特征选择 python_lasso特征选择 python_04正则化问题。

与梯度下降法不同的是:这里不是对整体(lasso特征选择 python_学习_30)使用泰勒展式,而是对其中的一部分(即lasso特征选择 python_机器学习_27)使用泰勒展式,得到【西瓜书式(11.10)】,如是就有了图11.3的求值过程(图中的式子编号均为【西瓜书中的式子编号】)。

lasso特征选择 python_机器学习_32


图11.3 近端梯度下降(PGD)

图11.3 中,从【西瓜书式(11.13)】求解lasso特征选择 python_机器学习_33如下:
lasso特征选择 python_lasso特征选择 python_34
其中,lasso特征选择 python_最小化_35lasso特征选择 python_lasso特征选择 python_36时取“+”号。 这里由于下标被样本编号占用,故用上标表示向量的分量。

由8.3 AdaBoost算法的详细推导式 (8.17)的数学知识,对式(11.12)的最小化变为
lasso特征选择 python_机器学习_37

平方和式(11.13):当各项为0时,达到最小值0。 即解为
lasso特征选择 python_lasso特征选择 python_38
其中,lasso特征选择 python_lasso特征选择 python_39lasso特征选择 python_lasso特征选择 python_36时取“lasso特征选择 python_学习_41”号。 整理即为【西瓜书式(11.14)】。