机器学习 --- 线性回归

原创

wx5e46005fc4d21 2022-02-09 14:22:19 ©著作权

©著作权归作者所有：来自51CTO博客作者wx5e46005fc4d21的原创作品，请联系作者获取转载授权，否则将追究法律责任

线性回归是属于机器学习里面的监督学习，与分类问题不同的是，在回归问题中，其目标是通过对训练样本的学习，得到从样本特征到样本标签直接的映射，其中，在回归问题中，样本的标签是连续值。线性回归是一类重要的回归问题。在线性回归中，目标值与特征直接存在线性关系。

本实训项目介绍线性回归模型的类别和性能度量等知识，并基于sklearn线性回归面向解决房价预测问题。

简单线性回归
多元线性回归

编程要求
测试说明

任务描述

本关任务：根据本节课所学知识完成本关所设置的选择题。

编程要求

根据相关知识，按照要求完成右侧选择题任务，包含单选题和多选题。

测试说明

平台会对你选择的答案进行判断，全对则通过测试。

开始你的任务吧，祝你成功！

1、下面属于多元线性回归的是？（BC）
A、求得正方形面积与对角线之间的关系。
B、建立股票价格与成交量、换手率等因素之间的线性关系。
C、建立西瓜价格与西瓜大小、西瓜产地、甜度等因素之间的线性关系。
D、建立西瓜书销量与时间之间的线性关系。
2、若线性回归方程得到多个解，下面哪些方法能够解决此问题？（ABC）
A、获取更多的训练样本
B、选取样本有效的特征，使样本数量大于特征数
C、加入正则化项
D、不考虑偏置项b
3、下列关于线性回归分析中的残差（预测值减去真实值）说法正确的是？（A）
A、残差均值总是为零
B、残差均值总是小于零
C、残差均值总是大于零
D、以上说法都不对

第2关：线性回归的正规方程解

任务描述
相关知识

数据集介绍
线性回归训练流程
线性回归的正规方程解

编程要求
测试说明

任务描述

本关任务：根据本关卡所学知识，构建线性回归算法，并利用波斯顿房价数据对模型进行训练，然后对未知的房价数据进行预测。

编程要求

根据提示，在右侧编辑器补充 Python 代码，实现线性回归算法与MSE损失函数计算方法，并利用房价数据对模型进行训练，然后对未知的房价数据进行预测。

测试说明

只需返回预测结果即可，程序内部会检测您的代码，MSE低于30则视为过关。

开始你的任务吧，祝你成功！

#encoding=utf8 
import numpy as np
def mse_score(y_predict,y_test):
    '''
    input:y_predict(ndarray):预测值
          y_test(ndarray):真实值
    ouput:mse(float):mse损失函数值
    '''
    #********* Begin *********#
    mse = np.mean((y_predict-y_test)/2)
    #********* End *********#
    return mse
class LinearRegression :
    def __init__(self):
        '''初始化线性回归模型'''
        self.theta = None
    def fit_normal(self,train_data,train_label):
        '''
        input:train_data(ndarray):训练样本
              train_label(ndarray):训练标签
        '''
        #********* Begin *********#
        x = np.hstack([np.ones((len(train_data),1)),train_data])
        self.theta =np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)
        #********* End *********#
        return self.theta
    def predict(self,test_data):
        '''
        input:test_data(ndarray):测试样本
        '''
        #********* Begin *********#
        x = np.hstack([np.ones((len(test_data),1)),test_data])
        return x.dot(self.theta)
        #********* End *********#

第3关：衡量线性回归的性能指标

任务描述
相关知识

前言
MSE
RMSE
MAE
R-Squared

编程要求
测试说明

任务描述

本关任务：根据本关卡所学知识，用Python实现线性回归常用评估指标，并对构造的线性回归模型进行评估。

编程要求

根据提示，在右侧编辑器Begin-End处补充代码，用Python实现R-Squared指标，并用实现的R-Squared指标来评估上一关的线性回归模型。

测试说明

只需返回预测结果即可，程序内部会检测您的代码，R-Squared指标高于0.6视为过关。

开始你的任务吧，祝你成功！

#encoding=utf8 
import numpy as np
#mse
def mse_score(y_predict,y_test):
    mse = np.mean((y_predict-y_test)**2)
    return mse
#r2
def r2_score(y_predict,y_test):
    '''
    input:y_predict(ndarray):预测值
          y_test(ndarray):真实值
    output:r2(float):r2值
    '''
    #********* Begin *********#
    r2 = 1 - mse_score(y_predict,y_test)/np.var(y_test)
    #********* End *********#
    return r2
class LinearRegression :
    def __init__(self):
        '''初始化线性回归模型'''
        self.theta = None
    def fit_normal(self,train_data,train_label):
        '''
        input:train_data(ndarray):训练样本
              train_label(ndarray):训练标签
        '''
        #********* Begin *********#
        x = np.hstack([np.ones((len(train_data),1)),train_data])
        self.theta =np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)
        #********* End *********#
        return self
    def predict(self,test_data):
        '''
        input:test_data(ndarray):测试样本
        '''
        #********* Begin *********#
        x = np.hstack([np.ones((len(test_data),1)),test_data])
        return x.dot(self.theta)
        #********* End *********#

第4关：scikit-learn线性回归实践 - 波斯顿房价预测

任务描述
相关知识

数据集介绍
LinearRegression

编程要求
测试说明

任务描述

本关任务：你需要调用 sklearn 中的线性回归模型，并通过波斯顿房价数据集中房价的13种属性与目标房价对线性回归模型进行训练。我们会调用你训练好的线性回归模型，来对房价进行预测。

编程要求

使用sklearn构建线性回归模型，利用训练集数据与训练标签对模型进行训练，然后使用训练好的模型对测试集数据进行预测，并将预测结果保存到./step3/result.csv中。保存格式如下：机器学习 --- 线性回归_数据集_09

测试说明

我们会获取你的预测结果与真实标签对比，R2指标高于0.6视为过关。

开始你的任务吧，祝你成功！

#encoding=utf8
#********* Begin *********#
import pandas as pd
from sklearn.linear_model import LinearRegression
#获取训练数据
train_data = pd.read_csv('./step3/train_data.csv')
#获取训练标签
train_label = pd.read_csv("./step3/train_label.csv")
train_label = train_label["target"]
#获取测试数据
test_data = pd.read_csv("./step3/test_data.csv")
lr = LinearRegression()
#训练模型
lr.fit(train_data,train_label)
#获取预测标签
predict = lr.predict(test_data)
#将预测标签写入csv
df = pd.DataFrame({"result":predict}) 
df.to_csv("./step3/result.csv", index=False)
#********* End *********#

上一篇：分布式机器学习——模型并行训练

下一篇：使用 Carla 和 Python 的自动驾驶汽车第 4 部分 —— 强化学习Action

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯