岭回归交叉验证 sklearn 回归交叉项如何解释

转载

数据探索者11 2024-04-12 15:43:15

文章标签 岭回归交叉验证 sklearn 多分类 Softmax 交叉熵函数代价函数 文章分类 机器学习人工智能

1、逻辑回归的损失函数

逻辑回归一般是处理分类问题，线性回归一般是处理回归问题。（逻辑回归可理解为二分类任务）

线性回归的损失函数是平方损失。逻辑回归如果用平方误差作为损失函数，那么损失函数一般不是凸约束的，所以用交叉熵损失函数，定义如下：

岭回归交叉验证 sklearn 回归交叉项如何解释_岭回归交叉验证 sklearn

其中：

(xy)ϵD 是包含很多有标签样本 (x,y) 的数据集。
“y”是有标签样本中的标签。由于这是逻辑回归，因此“y”的每个值必须是 0 或 1。
“y’”是对于特征集“x”的预测值（介于 0 和 1 之间）。

以下是我个人对逻辑回归处理流程的简单理解：

1、定义sigmoid函数作为“回归”函数，

岭回归交叉验证 sklearn 回归交叉项如何解释_多分类_02

其中x用多项式表示，引入多个参数；每输入一个x，会得到一个0<y<1的概率值，通过对y值阈值分割，得到预测分类的结果。针对二分类任务，代价函数可写为：2、根据最大似然估计原则对代价函数进行处理（累乘、取对数），最后得到最终的交叉熵代价函数。

岭回归交叉验证 sklearn 回归交叉项如何解释_代价函数_03

3、利用梯度下降法求解代价函数的最小值。

逻辑回归中的正则化

正则化在逻辑回归建模中极其重要。如果没有正则化，逻辑回归的渐近性会不断促使损失在高维度空间内达到 0。因此，大多数逻辑回归模型会使用以下两个策略之一来降低模型复杂性：

1、L2 正则化。
2、早停法，即，限制训练步数或学习速率。
3、 L1 正则化。

假设您向每个样本分配一个唯一 ID，且将每个 ID 映射到其自己的特征。如果您未指定正则化函数，模型会变得完全过拟合。这是因为模型会尝试促使所有样本的损失达到 0 但始终达不到，从而使每个指示器特征的权重接近正无穷或负无穷。当有大量罕见的特征组合且每个样本中仅一个时，包含特征组合的高维度数据会出现这种情况。

幸运的是，使用 L2 或早停法可以防止出现此类问题。