我们都知道,只含有一个自变量 x 和一个因变量 y,且二者的关系可用一条直线近似表示,则称为一元线性回归分析,形式为:
同理,包括两个或两个以上的自变量 x 和一个因变量 y,且因变量和自变量之间是线性关系,则称为多元线性回归分析,形式为:
如何确定一组最佳的参数
呢?那么会有人问什么是最佳参数呢?就是这组参数能够使我们预测出来的图片值与真实的图片值之间的差距最小,均方误差是回归问题中常用的性能度量指标,基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
基于以上思路,我们看一下下面这个问题。
问题:
假设我们有m个样本,每个样本有n个特征,并且已知每个样本对应的输出值y,形式为:
求此样本的输出值是什么?(y是连续的,所以为回归问题)
分析:
我们假设模型是这样的:
其中,
损失函数为:
那么我们的问题就是,找到一组最佳的参数使得损失函数最小。我们令其导数等于0,求得的参数即为最佳参数。
求解:
1、代数法
我们假设n=1,即这m个样本都只有一个特征,那么
损失函数为:
我们分别对
求导得:
求得参数值为:
同理,可以得出针对多个特征的样本拟合的最佳参数。
2、矩阵法
我们模型的矩阵形式为:
损失函数为:
展开后为:
对上式求导得:
即:
两边同时左乘
后,得参数为:
总结一下上面用到的矩阵相关知识:
=====================================================================