为什么是均方差

直观上看,均方差是表达的是欧几里得距离,表示的是预测点到原来点的距离,这个距离越小越好。
然而,将均方差作为损失函数是通过推导得到的。
首先,线性回归属于普通线性模型,而普通线性回归中的误差项满足下面四个假设:

  • 零均值假设:误差项是期望为零的随机变量,即零均值均匀分布python 零均值假设是什么意思_正态分布
  • 不变方差假设:误差项e的方差(用零均值均匀分布python 零均值假设是什么意思_正态分布_02表示)是常数且与 x1,x2,…. 的值无关
  • 独立性假设:e的变量是相互独立的
  • 正态性假设:误差项零均值均匀分布python 零均值假设是什么意思_极大似然估计_03是正态随机变量,也即:误差项e的值是独立的正态分布随机变量,带有均值0和不变方差零均值均匀分布python 零均值假设是什么意思_正态分布_02

零均值均匀分布python 零均值假设是什么意思_极大似然估计_05, 线性模型的损失函数是由这个误差项满足的假设条件推导出来的,下面是推导过程。

  1. 首先假设零均值均匀分布python 零均值假设是什么意思_方差_06满足正态分布,所以其概率密度函数如下:
    零均值均匀分布python 零均值假设是什么意思_方差_07
  2. 其次,从现实出发,此时零均值均匀分布python 零均值假设是什么意思_方差_06是现实中的误差项,要让其满足正态分布,我们就得用极大似然估计去估计模型的参数,使模型产生的误差项满足正态分布。根据极大似然估计得定义,令:
    零均值均匀分布python 零均值假设是什么意思_正态分布_09
    然后取似然对数得:
    零均值均匀分布python 零均值假设是什么意思_方差_10
  3. 分别对零均值均匀分布python 零均值假设是什么意思_正态分布_11零均值均匀分布python 零均值假设是什么意思_正态分布_12求偏导,因为这两个是极大似然估计的两个参数,得到如下偏导数:
    零均值均匀分布python 零均值假设是什么意思_正态分布_13
    零均值均匀分布python 零均值假设是什么意思_零均值均匀分布python_14
    4.求解
    理论上是要求零均值均匀分布python 零均值假设是什么意思_极大似然估计_15(这是强制要求), 零均值均匀分布python 零均值假设是什么意思_正态分布_12越小越好,所以
    零均值均匀分布python 零均值假设是什么意思_极大似然估计_17
    即推导出了线性模型的损失函数

为什么不用三次方四次方

三次方可以归结为奇次方,不能选择奇次方作为损失函数的原因:

  • 误差和可能会相互抵消,因为奇次方可正可负
  • 求导后导数恒正,更新会出错

为什么不用四次方甚至更高

  • 惩罚项过大,使得模型受噪音影响严重
  • 求导后还要计算高次方,计算不友好