何为Regression

上一节我们已经讲到过,Regression的特点就是它的输出是一个具体的数值,不同的数值具有不同的意义

Linear Model

Linear Regression的Model的通常的形式为:

linearregression有哪些参数需要调 linearregression函数_损失函数


w和x都可以是向量的形式,他们一一对应,我们训练的目的就是找出最好的w和b,使其在训练数据上对应的y的预测尽可能的准确

Loss Function

为了计算出最好的w和b,我们引入了loss function的概念

linearregression有哪些参数需要调 linearregression函数_数据_02


它的动机是找出真实值与预测值之间最小的差距,差距越小,说明预测的越准确

Gradient Descent

为了计算最小的损失函数,我们引入了梯度下降法的概念

linearregression有哪些参数需要调 linearregression函数_过拟合_03


它的方法如图所示,即找到损失函数的导数为零的点,求出其对应的w和x就是最优解,它的公式为

linearregression有哪些参数需要调 linearregression函数_数据_04


其中红色字母称为学习率,代表更新的速度,一般远小于1。但是从图中我们可以很明显的看出,梯度下降法算出来的解有可能是驻点,也有可能是局部最低点,而不是我们想要的全局最低点,针对这个问题,我们想出的第一个办法是给不同的参数不同的学习率

under fitting

很多时候,我们的数据往往都不是简单的一次函数的关系,这种现象称为欠拟合,我们可以同过更高次的函数来构建出更好的模型如

linearregression有哪些参数需要调 linearregression函数_数据_05


linearregression有哪些参数需要调 linearregression函数_过拟合_06


随着次数的增多,由常识可知,在固定训练数据上的准确率也会越来越高,但是这样做真的正确吗?

overfitting

在实际应用中我们通常会发现,在训练数据上的准确率很高,但是在真实数据中准确率确往往不尽如人意,这是由于训练数据并不是十全十美的,它也会有各种各样的噪点数据,模型往往把训练数据的噪点信息也学习进去了,也就是学到了许多不必要的特点,这种现象称为过拟合。解决过拟合的常用方法有:增大数据量,使用正则化(regularization)

Regularization

Regularization的基本理论是奥卡姆剃刀原理,也就是往往越简单的模型越可靠

linearregression有哪些参数需要调 linearregression函数_数据_07


它在损失函数后添加了一项,意思是损失最小的同时,对应的系数也要尽可能小,这称为正则化