线性回归是属于机器学习里面的监督学习,与分类问题不同的是,在回归问题中,其目标是通过对训练样本的学习,得到从样本特征到样本标签直接的映射,其中,在回归问题中,样本的标签是连续值。线性回归是一类重要的回归问题。在线性回归中,目标值与特征直接存在线性关系。

本实训项目介绍线性回归模型的类别和性能度量等知识,并基于sklearn线性回归面向解决房价预测问题。


第1关:简单线性回归与多元线性回归




任务描述

本关任务:根据本节课所学知识完成本关所设置的选择题。

相关知识

为了完成本关任务,你需要掌握:1.简单线性回归,2.多元线性回归。


您的浏览器不支持 video 标签。

课程视频《简单线性回归》



您的浏览器不支持 video 标签。

课程视频《多元线性回归》


简单线性回归

在生活中,我们常常能碰到这么一种情况,一个变量会跟着另一个变量的变化而变化,如圆的周长与半径的关系,当圆的半径确定了,那么周长也就确定了。还有一种情况就是,两个变量之间看似存在某种关系,但又没那么确定,如青少年的身高与体重,他们存在一种近似的线性关系: ​​身高/cm = 体重/kg +105​​ 但是,并不是每个青少年都符合这个公式,只能说每个青少年的身高体重都存在这么一种近似的线性关系。这就是其实就是简单的线性回归,那么,到底什么是线性回归呢?假如我们将青少年的身高和体重值作为坐标,不同人的身高体重就会在平面上构成不同的坐标点,然后用一条直线,尽可能的去拟合这些点,这就是简单的线性回归。

机器学习 --- 线性回归_数据

简单的线性回归模型如下:

y=wx+b

其中​​x​​​表示特征值(如:体重值),​​w​​​表示权重,​​b​​​表示偏置,​​y​​表示标签(如:身高值)。

多元线性回归

简单线性回归中,一个变量跟另一个变量的变化而变化,但是生活中,还有很多变量,可能由多个变量的变化决定着它的变化,比如房价,影响它的因素可能有:房屋面积、地理位置等等。如果我们要给它们建立出近似的线性关系,这就是多元线性回归,多元线性回归模型如下:

y=b+w1x1+w2x2+...+wnxn

其中xi​表示第​​i​​​个特征值,wi​表示第​​i​​​个特征对应的权重,​​b​​​表示偏置,​​y​​表示标签。

编程要求

根据相关知识,按照要求完成右侧选择题任务,包含单选题和多选题。

测试说明

平台会对你选择的答案进行判断,全对则通过测试。


开始你的任务吧,祝你成功!


  • 1、下面属于多元线性回归的是?(BC)
    A、 求得正方形面积与对角线之间的关系。
    B、 建立股票价格与成交量、换手率等因素之间的线性关系。
    C、 建立西瓜价格与西瓜大小、西瓜产地、甜度等因素之间的线性关系。
    D、 建立西瓜书销量与时间之间的线性关系。
  • 2、若线性回归方程得到多个解,下面哪些方法能够解决此问题?(ABC)
    A、 获取更多的训练样本
    B、 选取样本有效的特征,使样本数量大于特征数
    C、 加入正则化项
    D、 不考虑偏置项b
  • 3、下列关于线性回归分析中的残差(预测值减去真实值)说法正确的是?(A)
    A、 残差均值总是为零
    B、 残差均值总是小于零
    C、 残差均值总是大于零
    D、 以上说法都不对

第2关:线性回归的正规方程解




任务描述

本关任务:根据本关卡所学知识,构建线性回归算法,并利用波斯顿房价数据对模型进行训练,然后对未知的房价数据进行预测。

相关知识

为了完成本关任务,你需要掌握:1.线性回归训练流程,2.线性回归的正规方程解。

数据集介绍

波斯顿房价数据集共有​​506​​​条波斯顿房价的数据,每条数据包括对指定房屋的​​13​​​项数值型特征和目标房价组成。用数据集的​​80%​​​作为训练集,数据集的​​20%​​作为测试集,训练集和测试集中都包括特征和目标房价。

​sklearn​​中已经提供了波斯顿房价数据集的相关接口,想要使用该数据集可以使用如下代码:

from sklearn import datasets#加载波斯顿房价数据集boston = datasets.load_boston()#X表示特征,y表示目标房价X = boston.datay = boston.target

数据集中部分数据与标签如下图所示:

机器学习 --- 线性回归_线性回归_02

机器学习 --- 线性回归_数据集_03


线性回归训练流程

由数据集可以知道,每一个样本有​​13​​​个特征与目标房价,而我们要做的事就是通过这​​13​​个特征来预测房价,我们可以构建一个多元线性回归模型,来对房价进行预测。模型如下:

y=b+w1x1+w2x2+...+wnxn

其中xi​表示第​​i​​​个特征值,wi​表示第​​i​​​个特征对应的权重,​​b​​​表示偏置,​​y​​表示目标房价。

为了方便,我们稍微将模型进行变换:

y=w0x0+w1x1+w2x2+...+wnxn

其中x0​等于​​1​​。

Y=heta.X

heta=(w0,w1,...,wn)

X=(1,x1,...,xn)

而我们的目的就是找出能够正确预测的多元线性回归模型,即找出正确的参数heta。那么如何寻找呢?通常在监督学习里面都会使用这么一个套路,构造一个损失函数,用来衡量真实值与预测值之间的差异,然后将问题转化为最优化损失函数。既然损失函数是用来衡量真实值与预测值之间的差异那么很多人自然而然的想到了用所有真实值与预测值的差的绝对值来表示损失函数。不过带绝对值的函数不容易求导,所以采用​​MSE​​(均方误差)作为损失函数,公式如下:

loss=m1sumi=1m(yi−pi)2

其中p表示预测值,y表示真实值,m为样本总个数,i表示第i个样本。最后,我们再使用正规方程解来求得我们所需要的参数。

线性回归模型训练流程如下:

机器学习 --- 线性回归_数据_04

线性回归的正规方程解

对线性回归模型,假设训练集中​​m​​​个训练样本,每个训练样本中有​​n​​个特征,可以使用矩阵的表示方法,预测函数可以写为:

Y=hetaX

其损失函数可以表示为

(Y−hetaX)T(Y−hetaX)

其中,标签​​Y​​​为​​mx1​​​的矩阵,训练特征​​X​​​为​​mx(n+1)​​​的矩阵,回归系数heta为​​(n+1)x1​​​的矩阵,对heta求导,并令其导数等于​​0​​,可以得到XT(Y−hetaX)=0。所以,最优解为:

heta=(XTX)−1XTY

这个就是正规方程解,我们可以通过最优方程解直接求得我们所需要的参数。

编程要求

根据提示,在右侧编辑器补充 ​​Python​​​ 代码,实现线性回归算法与​​MSE​​损失函数计算方法,并利用房价数据对模型进行训练,然后对未知的房价数据进行预测。

测试说明

只需返回预测结果即可,程序内部会检测您的代码,​​MSE​​​低于​​30​​则视为过关。


开始你的任务吧,祝你成功!

#encoding=utf8 
import numpy as np
def mse_score(y_predict,y_test):
'''
input:y_predict(ndarray):预测值
y_test(ndarray):真实值
ouput:mse(float):mse损失函数值
'''
#********* Begin *********#
mse = np.mean((y_predict-y_test)/2)
#********* End *********#
return mse
class LinearRegression :
def __init__(self):
'''初始化线性回归模型'''
self.theta = None
def fit_normal(self,train_data,train_label):
'''
input:train_data(ndarray):训练样本
train_label(ndarray):训练标签
'''
#********* Begin *********#
x = np.hstack([np.ones((len(train_data),1)),train_data])
self.theta =np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)
#********* End *********#
return self.theta
def predict(self,test_data):
'''
input:test_data(ndarray):测试样本
'''
#********* Begin *********#
x = np.hstack([np.ones((len(test_data),1)),test_data])
return x.dot(self.theta)
#********* End *********#

第3关:衡量线性回归的性能指标




任务描述

本关任务:根据本关卡所学知识,用​​Python​​实现线性回归常用评估指标,并对构造的线性回归模型进行评估。

相关知识

为了完成本关任务,你需要掌握:1.均方误差​​(MSE)​​​,2.均方根误差​​(RMSE)​​​,3.平均绝对误差​​(MAE)​​​,4.​​R-Squared​​。

前言

大家知道已经,机器学习通常都是将训练集上的数据对模型进行训练,然后再将测试集上的数据给训练好的模型进行预测,最后根据模型性能的好坏选择模型,对于分类问题,大家很容易想到,可以使用正确率来评估模型的性能,那么回归问题可以使用哪些指标用来评估呢?

机器学习 --- 线性回归_数据集_05


MSE

​MSE (Mean Squared Error)​​叫做均方误差,公式如下:

m1sumi=1m(yi−pi)2

其中yi表示第​​i​​​个样本的真实标签,pi表示模型对第​​i​​个样本的预测标签。线性回归的目的就是让损失函数最小。那么模型训练出来了,我们在测试集上用损失函数来评估模型就行了。

RMSE

​RMSE(Root Mean Squard Error)​​均方根误差,公式如下:

sqrtm1sumi=1m(yi−pi)2

​RMSE​​​其实就是​​MSE​​开个根号。有什么意义呢?其实实质是一样的。只不过用于数据更好的描述。

例如:要做房价预测,每平方是万元,我们预测结果也是万元。那么差值的平方单位应该是千万级别的。那我们不太好描述自己做的模型效果。怎么说呢?我们的模型误差是多少千万?于是干脆就开个根号就好了。我们误差的结果就跟我们数据是一个级别的了,在描述模型的时候就说,我们模型的误差是多少万元。

MAE

​MAE​​(平均绝对误差),公式如下:

m1sumi=1m∣yi−pi∣

​MAE​​​虽然不作为损失函数,确是一个非常直观的评估指标,它表示每个样本的预测标签值与真实标签值的​​L1​​距离。

R-Squared

上面的几种衡量标准针对不同的模型会有不同的值。比如说预测房价 那么误差单位就是万元。数子可能是​​3​​​,​​4​​​,​​5​​​之类的。那么预测身高就可能是​​0.1​​​,​​0.6​​​之类的。没有什么可读性,到底多少才算好呢?不知道,那要根据模型的应用场景来。 看看分类算法的衡量标准就是正确率,而正确率又在​​0~1​​​之间,最高百分之百。最低​​0​​​。如果是负数,则考虑非线性相关。很直观,而且不同模型一样的。那么线性回归有没有这样的衡量标准呢? ​​R-Squared​​就是这么一个指标,公式如下:

R2=1−sumi(ymeani−yi)2sumi(pi−yi)2

其中ymean表示所有测试样本标签值的均值。为什么这个指标会有刚刚我们提到的性能呢?我们分析下公式:

机器学习 --- 线性回归_数据_06

其实分子表示的是模型预测时产生的误差,分母表示的是对任意样本都预测为所有标签均值时产生的误差,由此可知:


  1. R2leq1,当我们的模型不犯任何错误时,取最大值​​1​​;
  2. 当我们的模型性能跟基模型性能相同时,取​​0​​;
  3. 如果为负数,则说明我们训练出来的模型还不如基准模型,此时,很有可能我们的数据不存在任何线性关系。

编程要求

根据提示,在右侧编辑器​​Begin-End​​​处补充代码,用​​Python​​​实现​​R-Squared​​​指标,并用实现的​​R-Squared​​指标来评估上一关的线性回归模型。

测试说明

只需返回预测结果即可,程序内部会检测您的代码,​​R-Squared​​​指标高于​​0.6​​视为过关。


开始你的任务吧,祝你成功!

#encoding=utf8 
import numpy as np
#mse
def mse_score(y_predict,y_test):
mse = np.mean((y_predict-y_test)**2)
return mse
#r2
def r2_score(y_predict,y_test):
'''
input:y_predict(ndarray):预测值
y_test(ndarray):真实值
output:r2(float):r2值
'''
#********* Begin *********#
r2 = 1 - mse_score(y_predict,y_test)/np.var(y_test)
#********* End *********#
return r2
class LinearRegression :
def __init__(self):
'''初始化线性回归模型'''
self.theta = None
def fit_normal(self,train_data,train_label):
'''
input:train_data(ndarray):训练样本
train_label(ndarray):训练标签
'''
#********* Begin *********#
x = np.hstack([np.ones((len(train_data),1)),train_data])
self.theta =np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)
#********* End *********#
return self
def predict(self,test_data):
'''
input:test_data(ndarray):测试样本
'''
#********* Begin *********#
x = np.hstack([np.ones((len(test_data),1)),test_data])
return x.dot(self.theta)
#********* End *********#

第4关:scikit-learn线性回归实践 - 波斯顿房价预测




任务描述

本关任务:你需要调用 ​​sklearn​​​ 中的线性回归模型,并通过波斯顿房价数据集中房价的​​13​​种属性与目标房价对线性回归模型进行训练。我们会调用你训练好的线性回归模型,来对房价进行预测。

相关知识

为了完成本关任务,你需要掌握:1.​​LinearRegression​​。

数据集介绍

波斯顿房价数据集共有​​506​​​条波斯顿房价的数据,每条数据包括对指定房屋的​​13​​​项数值型特征和目标房价组成。用数据集的​​80%​​​作为训练集,数据集的​​20%​​作为测试集,训练集和测试集中都包括特征和目标房价。 想要使用该数据集可以使用如下代码:

import pandas as pd#获取训练数据train_data = pd.read_csv('./step3/train_data.csv')#获取训练标签train_label = pd.read_csv('./step3/train_label.csv')train_label = train_label['target']#获取测试数据test_data = pd.read_csv('./step3/test_data.csv')

数据集中部分数据与标签如下图所示:

机器学习 --- 线性回归_线性回归_07


机器学习 --- 线性回归_数据集_08

LinearRegression

​LinearRegression​​的构造函数中有两个常用的参数可以设置:


  • ​fit_intercept​​​:是否有截据,如果没有则直线过原点,默认为​​Ture​​。
  • ​normalize​​​:是否将数据归一化,默认为​​False​​。

​LinearRegression​​​类中的​​fit​​​函数用于训练模型,​​fit​​函数有两个向量输入:


  • ​X​​​:大小为**[样本数量,特征数量]**的​​ndarray​​,存放训练样本
  • ​Y​​​:值为整型,大小为**[样本数量]**的​​ndarray​​,存放训练样本的标签值

​LinearRegression​​​类中的​​predict​​​函数用于预测,返回预测值,​​predict​​函数有一个向量输入:

  • ​X​​​:大小为**[样本数量,特征数量]**的​​ndarray​​,存放预测样本

​LinearRegression​​的使用代码如下:

lr = LinearRegression()lr.fit(X_train, Y_train)predict = lr.predict(X_test)

编程要求

使用​​sklearn​​​构建线性回归模型,利用训练集数据与训练标签对模型进行训练,然后使用训练好的模型对测试集数据进行预测,并将预测结果保存到​​./step3/result.csv​​​中。保存格式如下: 机器学习 --- 线性回归_数据集_09

测试说明

我们会获取你的预测结果与真实标签对比,​​R2​​​指标高于​​0.6​​视为过关。


开始你的任务吧,祝你成功!

#encoding=utf8
#********* Begin *********#
import pandas as pd
from sklearn.linear_model import LinearRegression
#获取训练数据
train_data = pd.read_csv('./step3/train_data.csv')
#获取训练标签
train_label = pd.read_csv("./step3/train_label.csv")
train_label = train_label["target"]
#获取测试数据
test_data = pd.read_csv("./step3/test_data.csv")
lr = LinearRegression()
#训练模型
lr.fit(train_data,train_label)
#获取预测标签
predict = lr.predict(test_data)
#将预测标签写入csv
df = pd.DataFrame({"result":predict})
df.to_csv("./step3/result.csv", index=False)
#********* End *********#