为什么是均方差
直观上看,均方差是表达的是欧几里得距离,表示的是预测点到原来点的距离,这个距离越小越好。
然而,将均方差作为损失函数是通过推导得到的。
首先,线性回归属于普通线性模型,而普通线性回归中的误差项满足下面四个假设:
- 零均值假设:误差项是期望为零的随机变量,即
- 不变方差假设:误差项e的方差(用表示)是常数且与 x1,x2,…. 的值无关
- 独立性假设:e的变量是相互独立的
- 正态性假设:误差项是正态随机变量,也即:误差项e的值是独立的正态分布随机变量,带有均值0和不变方差
而, 线性模型的损失函数是由这个误差项满足的假设条件推导出来的,下面是推导过程。
- 首先假设满足正态分布,所以其概率密度函数如下:
- 其次,从现实出发,此时是现实中的误差项,要让其满足正态分布,我们就得用极大似然估计去估计模型的参数,使模型产生的误差项满足正态分布。根据极大似然估计得定义,令:
然后取似然对数得: - 分别对和求偏导,因为这两个是极大似然估计的两个参数,得到如下偏导数:
4.求解
理论上是要求(这是强制要求), 越小越好,所以
即推导出了线性模型的损失函数
为什么不用三次方四次方
三次方可以归结为奇次方,不能选择奇次方作为损失函数的原因:
- 误差和可能会相互抵消,因为奇次方可正可负
- 求导后导数恒正,更新会出错
为什么不用四次方甚至更高
- 惩罚项过大,使得模型受噪音影响严重
- 求导后还要计算高次方,计算不友好