回归问题的概率解释

  • 线性回归的损失函数
  • 线性回归-最小二乘的概率解释(频率学派-最大似然估计)
  • 岭回归的损失函数
  • 岭回归的概率解释(贝叶斯学派-最大后验估计)
  • 结论
  • 最大后验估计与最大似然估计


线性回归的损失函数

torch 岭回归 岭回归估计_极大似然估计

线性回归-最小二乘的概率解释(频率学派-最大似然估计)

当我们面对回归问题时,为什么会采用线性回归,最小二乘法来定义成本函数,即1/2的差的平方和。

这里给出概率解释:

我们拟合的直线的函数值即预测值必然和真实值会存在误差。那么假定一个等式:
torch 岭回归 岭回归估计_线性回归_02

其中各个样本的误差项,是独立同分布且服从高斯分布(正态分布)。(可根据中心极限定理来看)

即就是:
torch 岭回归 岭回归估计_极大似然估计_03
torch 岭回归 岭回归估计_线性回归_04

均值为0,容易理解.

所以,

torch 岭回归 岭回归估计_torch 岭回归_05

也就是要面对 在torch 岭回归 岭回归估计_torch 岭回归_06为参数给定一个x时预测值y是真实值的概率服从正太分布,要求得概率最大时的?

使用最大似然估计
torch 岭回归 岭回归估计_概率解释_07
torch 岭回归 岭回归估计_概率解释_08
根据此过程,要求此函数的最大值 ,需求上式中后项函数 torch 岭回归 岭回归估计_极大似然估计_09 的最小值,
torch 岭回归 岭回归估计_极大似然估计

此函数又即为最小二乘估计的目标函数。

岭回归的损失函数

torch 岭回归 岭回归估计_岭回归_11

岭回归的概率解释(贝叶斯学派-最大后验估计)

以贝叶斯学派得角度来看:

我们引入高斯噪声 torch 岭回归 岭回归估计_线性回归_12 来看可以知道:
torch 岭回归 岭回归估计_岭回归_13

也就是:
torch 岭回归 岭回归估计_岭回归_14

我们假定参数 torch 岭回归 岭回归估计_torch 岭回归_06 也服从一个高斯分布:
torch 岭回归 岭回归估计_概率解释_16

以及贝叶斯定理:
torch 岭回归 岭回归估计_torch 岭回归_17

根据最大后验估计:

torch 岭回归 岭回归估计_极大似然估计_18

MAP: torch 岭回归 岭回归估计_岭回归_19

岭回归:torch 岭回归 岭回归估计_线性回归_20

结论

最小二乘估计 LSE <==> 极大似然估计 MLE(noise 为 高斯分布)
正则化最小二乘 RLSE <==> 最大后验概率估计MAP(先验和噪声均为高斯分布)

最大后验估计与最大似然估计

最大后验概率估计MAP相比于最大似然估计MLP多了一个假定服从某种分布的先验知识

参见 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解 这篇博客。