逻辑回归的对数损失

转载

mob6454cc65e0f6 2024-09-02 16:21:58

文章标签 逻辑回归的对数损失极大似然估计条件概率先验概率 文章分类 机器学习人工智能

贝叶斯部分参考：，感谢大佬

考虑二分类任务，标记输出y 属于{0，1}，而线性回归模型产生的预测值

$z=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$

是实际值。于是，我们需将实值

逻辑回归的对数损失_条件概率_02

转换成0/1值。

Sigmoid函数可以很好的实现这一目标：

$y=\frac{1}{1+e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)}}$

通过对数的方法，可转换为：

$\ln \frac{y}{1-y}=w^{T} x+b$

若将y视为样本x的正例的可能性，则1 - y 是其反例可能性，两者的比值为：

$\frac{y}{1-y}$

这一比值可以称为“几率”，反应了x作为正例的相对可能性。对几率取对数可以得到“对数几率”:

$\ln \frac{y}{1-y}$

上式通过线性回归模型预测结果去逼近真实标记的对数的几率，其对应的模型就是我们常说的“逻辑回归”，也叫做“对数几率回归”。如果将上式中y视为类后验概率估计p（y=1 | x），可将上式重写为：

$\ln \frac{p(y=1 | \boldsymbol{x})}{p(y=0 | \boldsymbol{x})}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$

显然有：

$\begin{array}{l}{p(y=1 | x)=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}} \\ {p(y=0 | \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}}\end{array}$

因此可以通过“极大似然法”来估计w和b。

首先来看贝叶斯分类，我们都知道经典的贝叶斯公式：

逻辑回归的对数损失_逻辑回归的对数损失_09

其中：p(w)：为先验概率，表示每种类别分布的概率；p（x | w）：类条件概率，表示在某种类别前提下，某事发生的概率；而p（w | x）为后验概率，表示某事发生了，并且它属于某一类别的概率，有了这个后验概率，我们就可以对样本进行分类。后验概率越大，说明某事物属于这个类别的可能性越大，我们越有理由把它归到这个类别下。

但是在实际问题中并不都是这样幸运的，我们能获得的数据可能只有有限数目的样本数据，而先验概率和类条件概率(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时，一种可行的办法是我们需要先对先验概率和类条件概率进行估计，然后再套用贝叶斯分类器。

先验概率的估计较简单，1、每个样本所属的自然状态都是已知的（有监督学习）；2、依靠经验；3、用训练样本中各类出现的频率估计。

类条件概率的估计（非常难），原因包括：概率密度函数包含了一个随机变量的全部信息；样本数据可能不多；特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是，把估计完全未知的概率密度

逻辑回归的对数损失_条件概率_10

转化为估计参数。这里就将概率密度估计问题转化为参数估计问题，极大似然估计就是一种参数估计方法。当然了，概率密度函数的选取很重要，模型正确，在样本区域无穷时，我们会得到较准确的估计值，如果模型都错了，那估计半天的参数，肯定也没啥意义了。

重要前提

上面说到，参数估计问题只是实际问题求解过程中的一种简化方法（由于直接估计类条件概率密度函数很困难）。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。

重要前提：训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件)，且有充分的训练样本。

极大似然估计

极大似然估计的原理，用一张图片来说明，如下图所示：

逻辑回归的对数损失_极大似然估计_11

总结起来，最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

原理：极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

给定数据集

$\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=1}^{m}$

，对率回归模型最大化“对数似然”：

$\ell(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)$

即每个样本属于其真实标记的概率越大越好。为了便于讨论，令

$\boldsymbol{\beta}=(\boldsymbol{w} ; b)$

，

$\hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1)$

，则

$\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$

可简写为

$\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}$

，再令

$p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})=p(y=1 | \hat{\boldsymbol{x}} ; \boldsymbol{\beta})$

，

$p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})=p(y=0 | \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=1-p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$