0 什么是回归?
假设线性回归是个黑盒子,那按照程序员的思维来说,这个黑盒子就是个函数,然后呢,我们只要往这个函数传一些参数作为输入,就能得到一个结果作为输出。那回归是什么意思呢?其实说白了,就是这个黑盒子输出的结果是个连续的值。如果输出不是个连续值而是个离散值那就叫分类。那什么叫做连续值呢?非常简单,举个栗子:比如我告诉你我这里有间房子,这间房子有40平,在地铁口,然后你来猜一猜我的房子总共值多少钱?这就是连续值,因为房子可能值80万,也可能值80.2万,也可能值80.111万。再比如,我告诉你我有间房子,120平,在地铁口,总共值180万,然后你来猜猜我这间房子会有几个卧室?那这就是离散值了。因为卧室的个数只可能是1, 2, 3,4,充其量到5个封顶了,而且卧室个数也不可能是什么1.1, 2.9个。所以呢,对于ML萌新来说,你只要知道我要完成的任务是预测一个连续值的话,那这个任务就是回归。是离散值的话就是分类。(PS:目前只讨论监督学习)
1 线性回归
OK,现在既然已经知道什么是回归,那现在就要来聊一聊啥叫线性。其实这玩意也很简单,我们在上初中的时候都学过直线方程对不对?来来来,我们来回忆一下直线方程是啥?
y=kx+b
喏,这就是初中数学老师教我们的直线方程。那上过初中的同学都知道,这个式子表达的是,当我知道k(参数)和b(参数)的情况下,我随便给一个x我都能通过这个方程算出y来。而且呢,这个式子是线性的,为什么呢?因为从直觉上来说,你都知道,这个式子的函数图像是条直线。。。。从理论上来说,这式子满足线性系统的性质。(至于线性系统是啥,我就不扯了,不然没完没了)那有的同学可能会觉得疑惑,这一节要说的是线性回归,我扯这个low逼直线方程干啥?其实,说白了,线性回归无非就是在N维空间中找一个形式像直线方程一样的函数来拟合数据而已。比如说,我现在有这么一张图,横坐标代表房子的面积,纵坐标代表房价。
然后呢,线性回归就是要找一条直线,并且让这条直线尽可能地拟合图中的数据点。
那如果让1000个老铁来找这条直线就可能找出1000种直线来,比如这样
这样
或者这样
喏,其实找直线的过程就是在做线性回归,只不过这个叫法更有逼格而已。。。
2 损失函数
那既然是找直线,那肯定是要有一个评判的标准,来评判哪条直线才是最好的。OK,道理我们都懂,那咋评判呢?其实简单的雅痞。。。只要算一下实际房价和我找出的直线根据房子大小预测出来的房价之间的差距就行了。说白了就是算两点的距离。当我们把所有实际房价和预测出来的房价的差距(距离)算出来然后做个加和,我们就能量化出现在我们预测的房价和实际房价之间的误差。例如下图中我画了很多条小数线,每一条小数线就是实际房价和预测房价的差距(距离)
然后把每条小竖线的长度加起来就等于我们现在通过这条直线预测出的房价与实际房价之间的差距。那每条小竖线的长度的加和怎么算?其实就是欧式距离加和,公式如下。(其中y(i)表示的是实际房价,y^(i)表示的是预测房价)
这个欧氏距离加和其实就是用来量化预测结果和真实结果的误差的一个函数。在ML中称它为损失函数(说白了就是计算误差的函数)。那有了这个函数,我们就相当于有了一个评判标准,当这个函数的值越小,就越说明我们找到的这条直线越能拟合我们的房价数据。所以说啊,线性回归无非就是通过这个损失函数做为评判标准来找出一条直线。
刚刚我举的例子是一维的例子(特征只有房子大小),那现在我们假设我的数据中还有一个特征是楼间距,那图像可能就是酱紫了。
从图我们可以看得出来,就算是在二维空间中,还是找一条直线来拟合我们的数据。所以啊,换汤不换药,损失函数还是这个欧式距离加和。
线性回归keras的实现:
import keras
import numpy as np
import matplotlib.pyplot as plt
#sequential 按顺序构成的模型
from keras.models import Sequential
#Dense全连接层
from keras.layers import Dense
#使用numpy生产100个随机点
x_data = np.random.rand(100)
noise = np.random.normal(0,0.01,x_data.shape)
y_data = x_data*0.1 + 0.2 + noise
#显示随机点
plt.scatter(x_data,y_data)
plt.show()
#构建一个顺序模型
model = Sequential()
#在模型中添加一个全连接层
model.add(Dense(units=1,input_dim=1))
#sgd:随机梯度下降法
#mse:均方误差
#选择优化器和损失函数
model.compile(optimizer = 'sgd',loss='mse')
#训练3001个批次
for step in range(5001):
#每次训练一个批次
cost = model.train_on_batch(x_data,y_data)
#每500个batch打印一次cost值
if step % 500 == 0:
print('cost:',cost)
#打印权值和偏置值
W,b = model.layers[0].get_weights()
print('W:',W,'b:',b)
#x_data输入网络中,得到预测值y_pred
y_pred = model.predict(x_data)
#显示随机点
plt.scatter(x_data,y_data)
#显示预测结果
plt.plot(x_data,y_pred,'r-',lw=3)
plt.show()
语法解释:
np.random.rand()
返回一个或一组服从“0~1”均匀分布的随机样本值。随机样本取值范围是[0,1),不包括1。均方误差,MSE(mean squared error),是预测值与真实值之差的平方和的平均值,即:
均方误差可用来作为衡量预测结果的一个指标
np.random.normal(0,0.01,x_data.shape)
生成正态分布随机点,均值,标准差,生成点的个数
plt.scatter(x_data,y_data)
散点图,plt.scatter(x, y, s, c ,marker, alpha)
x,y: x轴与y轴的数据
s: 点的面积
c: 点的颜色
marker: 点的形状
alpha: 透明度
plt.show()
散点图其后跟着plt.show()才能显示出来。
plt.imshow()函数负责对图像进行处理,并显示其格式,而plt.show()则是将plt.imshow()处理后的函数显示出来。
train_on_batch()函数接受一个batch的输入和标签,然后开始反向传播,更新参数等