最小二乘法的极大似然解释

原创

xindoo 2022-07-19 10:27:44 ©著作权

©著作权归作者所有：来自51CTO博客作者xindoo的原创作品，请联系作者获取转载授权，否则将追究法律责任

　　最开始学习机器学习的时候，首先遇到的就是回归算法，回归算法里最最重要的就是最小二乘法，为什么损失函数要用平方和，而且还得是最小？仔细想想最小二乘法视乎很合理，但是合理在哪，怎么用数学方法来证明它合理。

J(θ)=12∑i=1m(hθ(x(i))−y(i))2

　　在真实数据中，一个x值可能对应多个y值，因为实际y值可能是受多种因素影响，所以我们可以假设任意一个x对于的y的真实值服从正态分布。我们什么时候可以认为模型

hθ(x) 拟合出来的点最好？当然是 hθ(x) 取值概率最大的时候。

最小二乘法的极大似然解释_机器学习

　　如上图，红蓝两条线来拟合绿色的这些数据点，明显红色的直线拟合效果更好一些。为什么？仔细看图中直线上红色x点，红色的x点正好是当前x值下，训练数据中出现概率最高的位置（之前我们已经假设每个位置y值符合高斯分布）。所以我们要求的就是使得拟合出的线(高纬度是超平面)上概率最大的

θ，这个时候我们就可以用到极大似然估计。

　　接下来我们用极大似然来证明最小二乘法。假设误差

ε(i)(1≤i≤m)（就是上图中绿色数据点到红色x点的距离）是独立同分布的，服从均值为0，方差为某定值 σ2的高斯分布，我们可以得到似然函数。

y(i)=θTx(i)+ϵ(i)p(ϵ(i))=12π‾‾‾√σe−(ϵ(i))22σ2p(y(i)|x(i);θ)=12π‾‾‾√σe(−(y(i)−θTx(i))22σ2)

L(θ)=∏i=1mp(y(i)|x(i);θ)=∏i=1m12π‾‾‾√σe(−(y(i)−θTx(i))22σ2)

　　对上面似然函数求对数得到对数似然函数

ℓ(θ)

ℓ(θ)=logL(θ)=log∏i=1m12π‾‾‾√σe(−(y(i)−θTx(i))22σ2)=∑i=1m12π‾‾‾√σe(−(y(i)−θTx(i))22σ2)=mlog12π‾‾‾√σ−1σ2⋅12∑i=1m(hθ(x(i))−y(i))2

　　上式中，

σ 是定值，我们要使得上式最大，就得使 12∑mi=1(hθ(x(i))−y(i))2最小，于是我们就得到了最小二乘。

J(θ)=12∑i=1m(hθ(x(i))−y(i))2

　　其实通过这个公式我们可以求得关于

θ的解析解，可以直接计算出 θ，但我们一般不这么做，因为求解析解过程中需要求矩阵的逆，这是一个非常耗时的工作（时间复杂度 Θ(n3)），另外矩阵也不一定可逆，一般都是用梯度下降。但我们还是看下如何求 θ的解析解。

J(θ)=12∑i=1m(hθ(x(i))−y(i))2=12(Xθ−y)T(Xθ−y)

对

J(θ)求一阶导得到梯度。

∇θJ(θ)=∇θ(12(Xθ−y)T(Xθ−y))=∇θ(12(θTXT−yT)(Xθ−y))=∇θ(12(θTXTXθ−θTXTy−yTXθ+yTy))=12(2XTXθ−XTy−(yTX)T)=XTXθ−XTy

因为

J(θ)是存在极小值的凸函数，什么时候取最小值呢？当然是梯度为0的时候。

XTXθ−XTy=0XTXθ=XTyθ=(XTX)−1XTy

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯