什么是线性回归?
假如我们想要开一家奶茶店,开店当然是为了赚钱了!所以在开店之前先来预测一下能否盈利。就算没做过生意我们也知道 利润 = 收入 - 成本。成本很好预测,就是房租、设备等费用,但收入如何预测呢?此时,有下面的这些数据
人流量(千人) | 日均收入(千元) |
9 | 27 |
23 | 72 |
29 | 63 |
26 | 61 |
24 | 57 |
35 | 94 |
21 | 59 |
27 | 78 |
19 | 60 |
31 | 90 |
根据上面表格中的数据来看,每天的收入是与奶茶店附近的人流量是有关的。那么其实就可以通过人流量来预测收入。
如果把人流量作为横坐标,收入作为纵坐标,就可以画一些散点。
可以想到,可以用一条直线来拟合这些点,即用一条直线来表示这两个变量之间的关系(这就是线性回归)。如果找到了这样的关系,就可以通过人流量来预测收入了。
上述问题中的人流量就是自变量,一般用表示,日均收入就是因变量,也是被预测的变量,一般用表示;用来拟合这两个变量的直线就是线性方程,一般可以用来表示。
所以,简单线性回归就是:一个自变量,一个因变量,用一条直线来近似表示二者的关系。
怎样求解拟合直线?
对于奶茶店这个问题,对那些散点我们可以有不同的直线来拟合这些点(如下图),那么怎么确定哪一条线是最好的呢?
最小二乘法
可以通过这个方法来确定最合理的拟合直线。
对于实际的收入用表示,用拟合直线预测的收入用表示,如下表
人流量 | 日均收入(实际) | 日均收入(预测) |
x1 | y1 | y1’ |
x2 | y2 | y2’ |
… | … | … |
实际值和预测值之间是有偏差的,这种偏差越小说明预测得越准确。即可以用如下式子表示:
=
最小二乘就是
这个值越小就表明预测值和实际值差距越小,如果小到0就表示预测和实际完全相同。
对于,通过最小二乘法,最终可求得:
有了k的值,随便代入一个数据x值,便可求得b的值。k和b都知道了,那么线性方程就可以得到了,再来新的数据,就可以进行预测了。