二元逻辑回归需要配对吗为什么二元逻辑回归模型公式

转载

代码探险家 2024-04-19 13:26:38

文章标签 二元逻辑回归需要配对吗为什么逻辑回归机器学习深度学习拟合 文章分类 机器学习人工智能

我们基于极大似然法来推导二元逻辑回归的损失函数，这个推导过程能够帮助我们了解损失函数怎么
得来的，以及为什么 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习$ 的最小化能够实现模型在训练集上的拟合最好。

我们的目标是：让模型对训练数据的效果好，追求损失最小

二元逻辑回归的标签服从伯努利分布(即0-1分布)，因此我们可以将一个特征向量为 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习_02$ ，参数为 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_03$ 的模型中的一个样本i的预测情况表现为如下形式：

样本i在由特征向量 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_04$ 和参数 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_05$ 组成的预测函数中，样本标签被预测为1的概率为：
$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_06$
样本i在由特征向量和参数组成的预测函数中，样本标签被预测为0的概率为：
$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_07$

当 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_08$ 的值为1的时候，代表样本i的标签被预测为1，当 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_09$ 的值为1的时候，代表样本i的标签被预测为0。

假设样本i的真实标签 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10$ 为1，此时如果 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_11$ 为1， $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_12$ 为0的时候，就代表样本i的标签被预测为1，与真实值一致。此时对于单样本i来说，模型的预测就是完全准确的，拟合程度很优秀，没有任何信息损失。

相反，如果 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_11$ 为0， $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_12$ 为1的时候，就代表样本i的标签被预测为0，与真实情况完全相反。对于单样本i来说，模型的预测就是完全错误的，拟合程度很差，所有的信息都损失了。

当 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10$ 为0时，也是同样的道理，所以，当 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10$ 为1的时候，我们希望 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_08$ 非常接近1，当 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10$ 为0的时候，我们希望 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_09$ 非常接近1，这样，模型的效果就很好，信息损失就很少。

二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_20

将两种取值的概率整合，我们可以定义如下等式：

$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_21$

这个等式代表同时代表了 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_12$ 和 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_11$ ，当样本i的真实标签 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10$ 为1的时候， $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_25$ 就等于0， $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_12$ 的0次方就是1，所以 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_27$ 等于 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_11$ ，这时，如果 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_11$ 为1，模型的效果就很好，损失就很小。同理，当 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10$ 为0的时候， $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_27$ 等于 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_12$ ，此时如果 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_12$ 非常接近1，模型的效果就很好，损失就很小。所以，为了达成让模型拟合好，损失小的目的，我们每时每刻都希望 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_34$ 而 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_27$ 的本质是样本i由特征向量 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习_36$ 和参数 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_03$ 组成的预测函数中，预测出所有可能的 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_38$ 的概率，因此1是它的最大值。

也就是说，每时每刻，我们都在追求 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_34$

$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_27$ 是对单个样本i而言的函数，对一个训练集的m个样本来说，我们可以定义如下等式来表达所有样本在特征矩阵X和参数 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_03$ 组成的预测函数中，预测出所有可能的 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_38$ 的概率P为：
$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_43$

对该概率P取对数，再由 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习_44$ 和 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_45$ 可得：
$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_46$

这就是我们的交叉熵函数。为了数学上的便利以及更好地定义”损失”的含义，我们希望将极大值问题转换为极小值问题，因此我们对 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习_47$ 取负，并且让参数 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_03$ 作为函数的自变量，就得到了我们的损失函数 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习$ ：
$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_50$

这就是一个，基于逻辑回归的返回值 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_51$ 的概率性质得出的损失函数。在这个函数上，我们只要追求最小值，就能让模型在训练数据上的拟合效果最好，损失最低。这个推导过程，其实就是“极大似然法”的推导过程。

似然与概率

似然与概率是一组非常相似的概念，它们都代表着某件事发生的可能性，但它们在统计学和机器学习中有着微妙的不同。以样本i为例，表达式为：
$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习_52$
对这个表达式而言，如果参数 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习_53$ 是已知的，特征向量 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_54$ 是未知的，我们便称P是在探索不同特征取值下获取所有可能的 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_55$ 的可能性,这种可能性就被称为概率，研究的是自变量和因变量之间的关系。
如果特征向量 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_54$ 是已知的，参数 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_机器学习_53$ 是未知的，我们便称P是在探索不同参数下获取所有可能的 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_逻辑回归_55$ 的可能性，这种可能性就被称为似然，研究的是参数取值与因变量之间的关系。
在逻辑回归的建模过程中，我们的特征矩阵是已知的，参数是未知的，因此我们讨论的所有“概率”其实严格来说都应该是“似然”。我们追求 $二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_深度学习_59$ 的最大值（换算成损失函数之后取负了，所以是最小值），就是在追求“极大似然”，所以逻辑回归的损失函数的推导方法叫做”极大似然法“。也因此，以下式子又被称为”极大似然函数“：
$二元逻辑回归需要配对吗为什么二元逻辑回归模型公式_拟合_60$