什么是线性回归?

假如我们想要开一家奶茶店,开店当然是为了赚钱了!所以在开店之前先来预测一下能否盈利。就算没做过生意我们也知道 利润 = 收入 - 成本。成本很好预测,就是房租、设备等费用,但收入如何预测呢?此时,有下面的这些数据

人流量(千人)

日均收入(千元)

9

27

23

72

29

63

26

61

24

57

35

94

21

59

27

78

19

60

31

90

根据上面表格中的数据来看,每天的收入是与奶茶店附近的人流量是有关的。那么其实就可以通过人流量来预测收入。
如果把人流量作为横坐标,收入作为纵坐标,就可以画一些散点。

线性回归预测租房价格 线性回归预测收入_线性回归预测租房价格


可以想到,可以用一条直线来拟合这些点,即用一条直线来表示这两个变量之间的关系(这就是线性回归)。如果找到了这样的关系,就可以通过人流量来预测收入了。

上述问题中的人流量就是自变量,一般用线性回归预测租房价格 线性回归预测收入_拟合_02表示,日均收入就是因变量,也是被预测的变量,一般用线性回归预测租房价格 线性回归预测收入_线性回归预测租房价格_03表示;用来拟合这两个变量的直线就是线性方程,一般可以用线性回归预测租房价格 线性回归预测收入_线性回归预测租房价格_04来表示。

所以,简单线性回归就是:一个自变量,一个因变量,用一条直线来近似表示二者的关系。

怎样求解拟合直线?

对于奶茶店这个问题,对那些散点我们可以有不同的直线来拟合这些点(如下图),那么怎么确定哪一条线是最好的呢?

线性回归预测租房价格 线性回归预测收入_线性回归预测租房价格_05


最小二乘法

可以通过这个方法来确定最合理的拟合直线。

对于实际的收入用线性回归预测租房价格 线性回归预测收入_线性回归预测租房价格_03表示,用拟合直线预测的收入用线性回归预测租房价格 线性回归预测收入_拟合_07表示,如下表

人流量

日均收入(实际)

日均收入(预测)

x1

y1

y1’

x2

y2

y2’




实际值和预测值之间是有偏差的,这种偏差越小说明预测得越准确。即可以用如下式子表示:

线性回归预测租房价格 线性回归预测收入_拟合_08 = 线性回归预测租房价格 线性回归预测收入_线性回归预测租房价格_09

最小二乘就是线性回归预测租房价格 线性回归预测收入_线性回归预测租房价格_10

这个值越小就表明预测值和实际值差距越小,如果小到0就表示预测和实际完全相同。

对于线性回归预测租房价格 线性回归预测收入_拟合_11,通过最小二乘法,最终可求得:

线性回归预测租房价格 线性回归预测收入_数据_12

有了k的值,随便代入一个数据x值,便可求得b的值。k和b都知道了,那么线性方程就可以得到了,再来新的数据,就可以进行预测了。