在数学上,变量之间的关系用确定的函数来表示是比较常见的一种方式。然而在现实应用中,还存在许多变量之间不能用确定的函数关系来表示的例子。本节将介绍变量之间存在线性相关关系的模型:线性回归模型。下面先介绍简单的一元线性回归,进而再拓展到较为复杂的多元线性回归。最后给出线性回归模型的Python实现方法。

        所谓一元线性回归,就是自变量和因变量只有一个的线性相关关系模型。以下通过现实生活中的例子引入,再而谈及回归模型、拟合优度等相关概念。

1.引例:

变量之间的相互关系,主要有三种:

(1)确定的函数关系         Y=f(X)

(2)不确定的统计相关关系

(3)没有关系               不用分析

那么身高预测问题:子女的身高(Y)与父母的身高(X)就属于第2种情况,子女身高与父母身高是相关的,但并不具有确定的函数关系。

2.一元回归模型:

一元二次回归方程怎么算_线性回归

,其中Y因变量(随机变量),x为自变量(确定的变量),β为模型系数 。每给定一个x,得到Y的一个分布。

3.一元回归方程:

对回归模型两边取数学期望,得到回归方程如下:

一元二次回归方程怎么算_机器学习_02

,每给定一个x,便有Y的一个数学期望值与之对应,他们是一个函数关系。 一般地,通过样本观测数据,可以估计出以上回归方程的参数,其一般形式为:

一元二次回归方程怎么算_线性回归_03

,其中 

一元二次回归方程怎么算_人工智能_04

对期望值及两个参数的估计

4.一元回归方程参数估计

对总体(x,Y)进行n次独立观测,获得n个样本观测数据:(x1,y1),(x2,y2),…,(xn,yn),将其绘制在图像上,如下图所示:

一元二次回归方程怎么算_一元二次回归方程怎么算_05

如何对这些观测值给出最合适的拟合直线呢?——最小二乘法,其基本思想是真实观测值与预测值(均值)总的偏差平方和最小,即

一元二次回归方程怎么算_人工智能_06

 求解以上最优化问题,即得到:

一元二次回归方程怎么算_人工智能_07

,其中

一元二次回归方程怎么算_机器学习_08


5.一元回归方程拟合优度

经过前面的步骤我们获得了线性回归方程,那么这个回归方程的拟合程度如何?能不能利用这个方程进行预测?可以通过拟合优度来进行判断。在介绍拟合优度概念之前,先介绍几个概念:总离差平方和、回归平方和、残差平方和,其计算公式分别如下:

一元二次回归方程怎么算_机器学习_09

一元二次回归方程怎么算_一元二次回归方程怎么算_10

R方称为拟合优度(判定系数),值越大表明直线拟合程度越好。