文章目录
- 前言
- 一、线性回归的概念
- 二、线性回归中常用的符号
- 三、线性回归的算法流程
- 四、线性回归的最小二乘法(LSM)
- 五、 总结
前言
一、线性回归的概念
线性回归(Linear Regression):是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。如下图所示,在一堆看似毫无规则的数据中去找到一条直线来拟合(表示)这些数据的规律。
二、线性回归中常用的符号
1、𝑚:代表训练集中样本的数量
2、𝑛 :代表特征的数量
3、𝑥 :代表特征/输入变量
4、𝑦 :代表目标变量/输出变量
5、𝑥, 𝑦: 代表训练集中的样本
6、(, ): 代表第𝑖个观察样本,而是特征矩阵中的第𝑖行,是一个向量,,例如就代表下图中第二行中的数据(162.2 31 8 118),而就代表下图中的37000,而代表特征矩阵中第 𝑖 行的第 𝑗 个特征,例如=31
7、ℎ (hypothesis) :代表学习算法的解决方案或函数也称为假设,大家也可以认为这就是一个函数(既y=ax+b)这种。
三、线性回归的算法流程
- 和的关系表达式:ℎ(𝑥) =
=,可默认为1,实际为常数,这样写的好处是方便做矩阵运算。 - 损失函数(Loss Function)是度量单样本预测的错误程度,损失函数值越小,模型就越好。常用的损失函数包括:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。一般我们采用平方和损失函数,公式如下:,要求最小值的话在这我们要找到一组值使得(残差平方和)最小,因此我们需要对求导求最值,即。
损失函数的系数1/2是为了便于计算,使对平方项求导后的常数系数为1,这样在形式上稍微简单一些。有些教科书把系数设为1/2,有些设置为1,这些都不影响结果。 - 代价函数(Cost Function)度量全部样本集的平均误差。常用的代价函数包括均方误差、均方根误差、平均绝对误差等。
- 目标函数(Object Function)代价函数和正则化函数,最终要优化的函数。
四、线性回归的最小二乘法(LSM)
将向量表达形式转为矩阵表达形式,则有𝐽(𝑤) =,其中为𝑚行𝑛 + 1
列的矩阵(𝑚为样本个数,𝑛为特征个数),𝑤为𝑛 + 1行1列的矩阵(包含了), 为𝑚行1列的矩阵,则𝐽(𝑤) ==。为求最下值,接下对求偏导。
因为中间两项互为转置,所以=,令=0,则有。
在这我们补充几个矩阵的求导法则:
、、
五、 总结
本人也才刚刚开始学习,请大家多多包涵。大家在学习机器学习之前可以先学习下线性代数