回归问题预测回归问题预测算法

转载

mob64ca1414098d 2024-06-10 07:20:23

文章标签 回归问题预测机器学习线性回归拟合数据 文章分类 机器学习人工智能

关键词：机器学习 / 回归

文章目录

回归问题是什么
生成数据
最小二乘法学习一元线性回归模型
最小二乘法学习多元线性回归模型
梯度下降法学习回归模型

回归问题是什么

回归问题是除了分类问题以外，机器学习中另一个经典问题。本节我们以从房价预测为问题背景，逐步介绍分类问题及其相关算法。

回归的目的是想拟合一组数据的输入 $回归问题预测回归问题预测算法_机器学习$ 和输出 $回归问题预测回归问题预测算法_拟合_02$ 之间的映射关系 $回归问题预测回归问题预测算法_线性回归_03$ ，进而用得到的拟合模型 $回归问题预测回归问题预测算法_线性回归_03$ 对未知的样本 $回归问题预测回归问题预测算法_数据_05$ 进行预测。分类和回归的最显著区别，是输出变量 $回归问题预测回归问题预测算法_拟合_02$ 的类型不同：

回归： $回归问题预测回归问题预测算法_数据_07$ 是连续变量，如预测深圳市南山区住宅的明年房价，是一个回归任务；
分类： $回归问题预测回归问题预测算法_数据_07$ 是离散变量，如预测深圳市南山区住宅的明年房价是涨是跌，是一个分类任务。

房价会受很多因素的影响，如面积、所在地区便利程度、开发商品质和所在学区等等。我们希望拟合出来房价和这些因素的关系，进而对未知的房价进行预测。如果我们考虑多个影响房价的因素，那么就是一个多元回归问题（又称多变量线性回归）。特别地，假设只考虑面积，拟合房价和面积之间的关系，那么就是一个一元回归问题:

多元回归： $回归问题预测回归问题预测算法_数据_09$ ，其中影响因素仅有一个特征，即 $回归问题预测回归问题预测算法_回归问题预测_10$ 是一维；
一元回归： $回归问题预测回归问题预测算法_拟合_11$ ，其中 $回归问题预测回归问题预测算法_机器学习_12$ 表示元的个数，也即特征的维度。

根据房价和影响因素之间的关系的类型，又可以分为线性回归和非线性回归，前者的潜在假设是输入、输出存在线性关系，而后者则认为输入和输出存在非线性映射：

线性回归： $回归问题预测回归问题预测算法_回归问题预测_13$ ，其中 $回归问题预测回归问题预测算法_回归问题预测_14$ 表示特征的个数；
非线性回归：常见的如多项式回归 $回归问题预测回归问题预测算法_机器学习_15$ 。

本次我们将以房价问题为例，从最简单的一元线性回归入手，了解回归问题的细节。

生成数据

我们用 $回归问题预测回归问题预测算法_拟合_02$ 表示房价，用 $回归问题预测回归问题预测算法_机器学习_17$ 表示影响房价的面积、所在地区便利程度、开发商品质等因素的向量。有房价标签的训练数据集为 $回归问题预测回归问题预测算法_拟合_18$ ，我们希望可以基于这些数据训练得到拟合二者关系的函数 $回归问题预测回归问题预测算法_线性回归_03$ ，当遇到新的测试数据 $回归问题预测回归问题预测算法_数据_05$ ，就可以预测得到它对应的房价 $回归问题预测回归问题预测算法_拟合_21$ 。

现在假设先只考虑面积因素来预测房价，手动生成以下面积和房价数据

x = [100, 60, 90, 120, 150, 170, 110, 200, 250, 220, 30, 70, 80, 140, 95] # 面积
y = [405, 260, 465, 600, 750, 780, 500, 930, 999, 780, 149, 350, 404, 650, 500] # 房价

数据可视化效果如下：

回归问题预测回归问题预测算法_机器学习_22

我们使用前10组数据作为训练集训练的一元线性回归模型，后5组数据留作测试。即训练数据：

x_train = [100, 60, 90, 120, 150, 170, 110, 200, 250, 220] # 面积
y_train = [405, 260, 465, 600, 750, 780, 500, 930, 999, 780] # 房价

测试数据：

x_test = [30, 70, 80, 140, 95] # 面积
y_test = [149, 350, 404, 650, 500] # 房价

最小二乘法学习一元线性回归模型

我们尝试简单的线性回归模型对数据进行拟合，即假设房价和面积的因素的关系为 $回归问题预测回归问题预测算法_数据_23$ 。接下来的任务是学习这里的参数 $回归问题预测回归问题预测算法_机器学习_24$ 和 $回归问题预测回归问题预测算法_数据_25$ 使得模型拟合得到的 $回归问题预测回归问题预测算法_拟合_02$ 值和对应的真实训练数据的 $回归问题预测回归问题预测算法_拟合_02$ 值尽量接近。回归问题中常用均方误差（mean squared error）来评估训练集上预测结果相对真实结果的差异，即要求模型参数满足
$回归问题预测回归问题预测算法_回归问题预测_28$

最小二乘法是常用的用于解决上述优化问题的方法，上面的均方误差损失 $回归问题预测回归问题预测算法_机器学习_29$ $回归问题预测回归问题预测算法_回归问题预测_30$ 分别对 $回归问题预测回归问题预测算法_机器学习_24$ 和 $回归问题预测回归问题预测算法_数据_25$ 求导，可以得到
$回归问题预测回归问题预测算法_机器学习_33$

这样我们就得到了线性回归的模型的参数，也就得到了基于训练数据的回归模型。根据以上结果，定义以下线性回归类：

class LinearRegression:
    def __init__(self, param=None):
        self.param = param

    def fit(self, x, y):
        sum_x = np.sum(x)
        sum_y = np.sum(y)
        
        mul_xy = np.multiply(x, y)
        sum_mul = np.sum(mul_xy)
        
        x_square = np.square(x)
        sum_xsqr = np.sum(x_square)
        
        y_square = np.square(y)
        sum_ysqr = np.sum(y_square)
        
        div = x.shape[0] * sum_xsqr - np.square(sum_x) # 分母
        coef = x.shape[0] * sum_mul - sum_x * sum_y # w的分子
        intercept = sum_y * sum_xsqr - sum_x * sum_mul # b的分子
        
        self.w = coef / div
        self.b = intercept /div
        
    def predict(self, x):
        return self.w * x + self.b

先初始化线性回归类，然后基于训练数据进行拟合

LR = LinearRegression()
LR.fit(x_train,y_train)

用拟合出来的模型，先在训练数据上对比看看预测结果和真实 $回归问题预测回归问题预测算法_拟合_02$ 值的差异：

pred_y_train = LR.predict(x_train)

回归问题预测回归问题预测算法_回归问题预测_35

再来看在测试数据上的表现

pred_y_test = LR.predict(x_test)

回归问题预测回归问题预测算法_拟合_36

图中的蓝色线，拟合了面积和房价之间的映射关系，就可以用来根据面积来预测房价啦。

最小二乘法学习多元线性回归模型

当我们关心的房价影响因素不止面积，还有所在地区便利程度、开发商品质和所在学区等时，每个样本的特征 $回归问题预测回归问题预测算法_机器学习$ 表示一个多维向量，相应的要学习的回归模型变为 $回归问题预测回归问题预测算法_线性回归_38$ 。将参数 $回归问题预测回归问题预测算法_数据_39$ 和 $回归问题预测回归问题预测算法_数据_25$ 合并为一个参数 $回归问题预测回归问题预测算法_机器学习_41$ ，要学习的模型为 $回归问题预测回归问题预测算法_机器学习_42$ 。类似地，仍可以使用最小二乘法来对参数 $回归问题预测回归问题预测算法_机器学习_41$ 进行估计。

将数据写成矩阵的形式，即 $回归问题预测回归问题预测算法_拟合_44$ 每一行为一条高维数据，参数的优化目标变为：

$回归问题预测回归问题预测算法_数据_45$

对参数 $回归问题预测回归问题预测算法_机器学习_41$ 进行矩阵运算的求导，得
$回归问题预测回归问题预测算法_线性回归_47$

令上式为0即可得到参数 $回归问题预测回归问题预测算法_机器学习_41$ 的最优解，当 $回归问题预测回归问题预测算法_数据_49$ 为满秩矩阵或正定矩阵时，可以得到
$回归问题预测回归问题预测算法_拟合_50$
若 $回归问题预测回归问题预测算法_数据_49$ 可逆，可用numpy库的linalg.inv求解；而当不可逆时，求得伪逆，又称广义逆矩阵，是逆矩阵的推广形式，可用linalg.pinv求解。

重新进行线性回归求解，相应的代码如下

class LinearRegression_multi:
    def __init__(self, param=None):
        self.param = param

    def fit(self, x, y):
        self.a = np.linalg.pinv(x.T.dot(x)).dot(x.T).dot(y) 

    def predict(self, x):
        return np.dot(x, self.a)

数据上，简单地增设第二维特征开发商品质，为0到1之间的打分，一共两维特征如下

x = np.array([[100, 0.8], 
              [ 60, 0.6],
              [ 90, 0.2],
              [120, 0.5],
              [150, 0.8],
              [170, 0.6],
              [110, 0.5],
              [200, 0.5],
              [250, 0.5],
              [220, 0.6],
              [ 30, 0.4],
              [ 70, 0.9],
              [ 80, 0.8],
              [140, 0.9],
              [ 95, 0.5]])

在分割训练数据和测试数据之前，注意这里还有两点需要注意

第二维特征和第一维特征的量纲差异相对大，但是不需要先进行归一化、标准化等操作
需要将特征数据和全1的向量拼接，这样才能将参数 $回归问题预测回归问题预测算法_数据_52$ 和 $回归问题预测回归问题预测算法_数据_53$ 合并为一个参数 $回归问题预测回归问题预测算法_线性回归_54$ 进行求解

one = np.ones((len(x),1))
x = np.concatenate((x_normed, one),axis=1)

举例数据较少，我们仍然直接将数据的前10个作为训练集，后5个作为测试集进行划分。数据标签y仍同前一个例子。

y = np.array([405, 260, 465, 600, 750, 780, 500, 930, 999, 780, 149, 350, 404, 650, 500]) 
x_train = x[:10]
y_train = y[:10]
x_test = x[10:]
y_test = y[10:]

先初始化多元线性回归类，然后基于训练数据进行拟合

LR_multi = LinearRegression_multi()
LR_multi.fit(x_train,y_train)

用拟合出来的模型，先在训练数据上对比看看预测结果和真实 $回归问题预测回归问题预测算法_拟合_02$ 值的差异：

pred_y_train = LR_multi.predict(x_train)

回归问题预测回归问题预测算法_拟合_56

再来看在测试数据上的表现

pred_y_test = LR.predict(x_test)

回归问题预测回归问题预测算法_拟合_57

至此线性回归模型，拟合了面积、开发商品质和房价之间的映射关系，就可以用来根据面积来预测房价啦。

梯度下降法学习回归模型

当线性模型不再满足我们拟合数据的需求时，最小二乘法使导数为0不一定能求出最优的闭式解，这个时候可以解决非线性优化的梯度下降法就该出场啦。

梯度下降法采用逐步迭代的方式去不断逼近极值点，即均方误差最小的地方，对应的参数即为最优参数。对于前述线性回归，损失函数和对应的梯度可以写成
$回归问题预测回归问题预测算法_拟合_58$

每次迭代的时候，按照学习率（步长） $回归问题预测回归问题预测算法_数据_59$ 更新参数即可
$回归问题预测回归问题预测算法_线性回归_60$
设置初始化参数、学习率、迭代次数，依照上述公式进行迭代，我们就可以得到相应的梯度下降结果。具体代码如下：

class LinearRegression_gd:
    def __init__(self, param=None):
        self.param = param

    def gradientDescent(self, x, y, alpha, iteration):  
        m = len(x)
        self.theta = np.zeros(x.shape[1])
        for i in range(iteration):
            gradient = 2/m * np.dot(x.T, (np.dot(x, self.theta) - y)) 
            self.theta = self.theta - alpha * gradient
        cost = 2/m * (np.dot(x, self.theta) - y).T.dot(np.dot(x, self.theta) - y)
        print('cost', cost)
        return cost
    
    def predict(self, x):
        return np.dot(x, self.theta)

注意这里在进行梯度下降前，对数据进行预处理的时候，需要先进行归一化或标准化的操作，否则会不同维度的数据可能相差太大，不能用同一步长进行迭代更新。这里选择了min-max normalization

x_normed = (x - x.min(axis=0)) / (x.max(axis=0) - x.min(axis=0))

先初始化回归类，然后基于训练数据进行拟合

LR_gd = LinearRegression_gd()
LR_gd.gradientDescent(x_train, y_train, alpha = 0.5, iteration = 200)

用拟合出来的模型，先在训练数据上对比看看预测结果和真实 $回归问题预测回归问题预测算法_拟合_02$ 值的差异：

pred_y_train = LR_gd.predict(x_train)

回归问题预测回归问题预测算法_数据_62

再来看在测试数据上的表现

pred_y_test = LR_gd.predict(x_test)

回归问题预测回归问题预测算法_回归问题预测_63

结果和前面的基于最小二乘法的多元线性回归是一样的，感兴趣的同学可以自己check一下~

其他非线性回归的梯度下降法是类似的，但是需要根据不同的非线性关系进行相应的调整。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：springboot2和1的区别大吗 springboot2.1

下一篇：python使用正则表达式替换手机号正则替换 python

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯