极大似然估计

极大似然估计

极大似然估计依据的假设是如果一个事件的概率最大,那么它就最有可能发生。

极大似然估计的通俗理解就是已知样本的结果信息(标签y),反推最大概率导致这一结果的模型参数值(W和b)

似然函数

对于函数$P(x|\theta)$, 输入有两个:$x$表示某一个具体的数据,$\theta$表示模型的参数。

  • 如果$ \theta $是已知的,此函数为概率函数,描述对于不同的样本点$ x $,其出现的概率是多少。
  • 如果$ x $是已知的,此函数则为似然函数,描述对于不同的模型参数,$ x $这个样本点出现的概率是多少。

举个例子,在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是$ P(result|model) $

$ P(result|model) $

$=P(x_1,x_2,…,x_100|model)\\$
$=P(x_1|model)P(x_2|model)…P(x_100|model)\\$

$=p^{70}(1-p)^{30}\\$

要使这个样本结果最大,对p求导得极值即可。

极大似然估计法(Maximum Likelihood Estimate)

$L(\theta )=L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )=\prod _{ i=1 }^{ n }{ p({ x }_{ i };\theta ) }$

假设

$L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\hat { \theta } )=\underset { \theta \in \Theta }{ max } L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )$

有$\hat{\theta}$使得$L(\theta)$的取值最大,则$\hat{\theta}$是参数$\theta$的最大似然估计值

在机器学习中,上述的样本$x$即为标签y,$\theta$则为模型参数$W$和$b$。

$ P(y_1,y_2,\cdots,y_n|W,b) $

$=\prod_{i=1}^nP(yi|\hat{y_i})\\$
若$x_i\in {0,1}$,则

$=\prod_{i=1}^n {\hat{y_i}}^{y_i}{(1-\hat{y_i})}^{1-{y_i}}\\$

两边取对数

$\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i}))$

变为求最小值

$min-\sum_{i=1}^n (y_i\log{\hat y_i}+(1-y_i)\log ({1-\hat y_i}))$

这样计算著名的损失函数就出来了

$\mathcal L(\hat y,y)=-(y\log{\hat y}+(1-y)\log {(1-{\hat y})})$