我们基于极大似然法来推导二元逻辑回归的损失函数,这个推导过程能够帮助我们了解损失函数怎么
得来的,以及为什么二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习最小化能够实现模型在训练集上的拟合最好。

我们的目标是:让模型对训练数据的效果好,追求损失最小

二元逻辑回归的标签服从伯努利分布(即0-1分布),因此我们可以将一个特征向量为 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习_02参数为二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_03的模型中的一个样本i的预测情况表现为如下形式:

  • 样本i在由特征向量 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_04和参数 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_05组成的预测函数中,样本标签被预测为1的概率为:
    二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_06
  • 样本i在由特征向量 和参数 组成的预测函数中,样本标签被预测为0的概率为:
    二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_07

二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_08的值为1的时候,代表样本i的标签被预测为1,当二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_09的值为1的时候,代表样本i的标签被预测为0。

假设样本i的真实标签二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10为1,此时如果二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_11为1,二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_12为0的时候,就代表样本i的标签被预测为1,与真实值一致。此时对于单样本i来说,模型的预测就是完全准确的,拟合程度很优秀,没有任何信息损失。

相反,如果二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_11为0,二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_12为1的时候,就代表样本i的标签被预测为0,与真实情况完全相反。对于单样本i来说,模型的预测就是完全错误的,拟合程度很差,所有的信息都损失了。

二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10为0时,也是同样的道理,所以,当 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10为1的时候,我们希望 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_08非常接近1, 当 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10为0的时候,我们希望 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_09非常接近1,这样,模型的效果就很好,信息损失就很少。

二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_20


将两种取值的概率整合,我们可以定义如下等式:

二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_21

这个等式代表同时代表了二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_12二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_11,当样本i的真实标签 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10为1的时候二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_25 就等于0,二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_12 的0次方就是1,所以二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_27等于二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_11,这时,如果二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_11为1,模型的效果就很好,损失就很小。同理,当 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_10为0的时候二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_27等于二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_12,此时如果二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_12非常接近1,模型的效果就很好,损失就很小。所以,为了达成让模型拟合好,损失小的目的,我们每时每刻都希望二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_34二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_27本质是样本i由特征向量二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习_36和参数二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_03组成的预测函数中,预测出所有可能的二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_38的概率,因此1是它的最大值。

也就是说,每时每刻,我们都在追求二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_34

二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_27是对单个样本i而言的函数,对一个训练集的m个样本来说,我们可以定义如下等式来表达所有样本在特征矩阵X和参数 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_03组成的预测函数中,预测出所有可能的 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_38的概率P为:
二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_43

对该概率P取对数,再由二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习_44二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_45可得:
二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_46

这就是我们的交叉熵函数。为了数学上的便利以及更好地定义”损失”的含义,我们希望将极大值问题转换为极小值问题,因此我们对 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习_47取负,并且让参数 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_03作为函数的自变量,就得到了我们的损失函数 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习
二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_50

这就是一个,基于逻辑回归的返回值 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_51的概率性质得出的损失函数。在这个函数上,我们只要追求最小值,就能让模型在训练数据上的拟合效果最好,损失最低。这个推导过程,其实就是“极大似然法”的推导过程。

似然与概率

  • 似然与概率是一组非常相似的概念,它们都代表着某件事发生的可能性,但它们在统计学和机器学习中有着微妙的不同。以样本i为例,表达式为:
    二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习_52
    对这个表达式而言,如果参数 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习_53是已知的,特征向量二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_54是未知的,我们便称P是在探索不同特征取值下获取所有可能的 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_55的可能性,这种可能性就被称为概率,研究的是自变量和因变量之间的关系。
    如果特征向量二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_二元逻辑回归需要配对吗为什么_54 是已知的,参数二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_机器学习_53 是未知的,我们便称P是在探索不同参数下获取所有可能的 二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_逻辑回归_55 的可能性,这种可能性就被称为似然,研究的是参数取值与因变量之间的关系。
    在逻辑回归的建模过程中,我们的特征矩阵是已知的,参数是未知的,因此我们讨论的所有“概率”其实严格来说都应该是“似然”。我们追求二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_深度学习_59 的最大值(换算成损失函数之后取负了,所以是最小值),就是在追求“极大似然”,所以逻辑回归的损失函数的推导方法叫做”极大似然法“。也因此,以下式子又被称为”极大似然函数“:
    二元逻辑回归需要配对吗为什么 二元逻辑回归模型公式_拟合_60