快速介绍Python中的线性回归

嗨,大家好!在简要介绍Panads库和NumPy库之后,我想快速介绍一下在Python中构建模型,还有什么比最基本的线性模型更好的开始呢?这将是关于机器学习的第一篇文章,我打算在将来写一些更复杂的模型。敬请关注!但是现在,让我们来关注线性回归。

在这篇博文中,我想关注线性回归的概念,主要是在Python中实现它。线性回归是用于检查两个(简单线性回归)或更多(多重线性回归)变量之间的线性关系的统计模型 - 一个因变量和自变量(s)。线性关系基本上意味着当一个(或多个)自变量增加(或减少)时,因变量也增加(或减少):

正如你所见,线性关系可以是正的(自变量上升,因变量上升)或负(自变量上升,因变量下降)。就像我说的那样,我将专注于Python中的回归模型的实现,所以我不想在回归基础的数学中深入研究,但我会写一点。如果你想写一篇博客文章,请不要犹豫,写信给我答复!

一点关于数学的知识

变量Y和X之间的关系由下式表示:

Y'i = mX + b

在这个方程中,Y是因变量 - 或者我们试图预测或估计的变量;X是自变量,我们用来做出预测的变量;m是回归线的斜率 - 它代表X对Y的影响。换句话说,如果X增加1个单位,Y将正好增加m个单位。(“充分表达”:只有当我们知道X和Y有线性关系时,这才成立,几乎所有线性回归的情况都不是这样的!)b是一个常数,也称为Y轴的截距。如果X等于0,则为Y将等于b(注意:请参阅前面的充分表达!)。这不一定适用于现实生活中 - 我们并不总是知道X和Y之间的确切关系,或者具有确切的线性关系。

这些注意事项引导我们进行简单线性回归(SLR)。在SLR模型中,我们基于数据建立一个模型 - 从数据中得出的斜率和Y轴截距;此外,我们不需要X和Y之间的关系是完全线性的。SLR模型还包括数据中的误差(也称为残差)。我现在不会讲太多,也许在后来的帖子中,但是残差基本上是Y的真实值与Y的预测/估计值之间的差异。需要注意的是在线性回归中,我们试图预测一个连续变量。在回归模型中,我们试图通过找到“最合适的线”来最小化这些误差 - 误差的回归线将是最小的。我们试图将黑线的长度(或更准确地说,蓝点的距离)从红线上减到最小- 尽可能接近于零。它与(或等于)最小化均方误差(MSE)或误差平方和(SSE)相关,也称为“残差平方和”(RSS),但这可能超出了这篇博文的范围:-)

在大多数情况下,我们将有多个自变量 - 我们将有多个变量;它可以只有两个自变量,最多可以有数百个(或理论上甚至数千个)的变量。在这些情况下,我们将使用多重线性回归模型(MLR)。回归方程与简单回归方程差不多,只有更多的变量:

Y'i = b0 + b1X1i + b2X2i

这篇文章的数学部分到此结束:)准备好在Python中实现它了吗?

在Python中实现线性回归

在Python中执行线性回归有两种主要方法 - 使用Statsmodels和scikit-learn。也可以使用Scipy库,但我觉得这并不像我提到的另外两个库那么常见。我们来看两个线性回归:

Statsmodels中的线性回归

Statsmodels是一个Python模块,它提供用于估计许多不同统计模型的类和函数,以及进行统计测试和统计数据探索。(从文档中)

与Pandas和NumPy一样,获取或安装Statsmodels的最简单方法是通过Anaconda包。如果由于某种原因你有兴趣以其他方式安装,请查看此链接。安装完成后,每次要使用它时都需要导入它:

import statsmodels.api as sm

让我们来看看如何使用Statsmodels进行线性回归。我将使用我在DC大会上所做的数据科学课程的一个例子:

首先,我们从sklearn(我提到的另一个库)导入数据集:

from sklearn import datasets ## 从scikit-learn导入数据集

data = datasets.load_boston() ## 从数据集库加载波士顿数据集

这是波士顿房价的数据集(链接到说明)。因为它是用于测试和学习机器学习工具的数据集,它附带了对数据集的描述,我们可以通过使用命令print data.DESCR来看到它(这只适用于sklearn数据集,而不是每个数据集!虽然很酷...)我添加了描述的开头,以便更好地了解变量:

Boston House Prices dataset
===========================
Notes
------
Data Set Characteristics:
:Number of Instances: 506
:Number of Attributes: 13 numeric/categorical predictive
:Median Value (attribute 14) is usually the target
:Attribute Information (in order):
- CRIM per capita crime rate by town
- ZN proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS proportion of non-retail business acres per town
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX nitric oxides concentration (parts per 10 million)
- RM average number of rooms per dwelling
- AGE proportion of owner-occupied units built prior to 1940
- DIS weighted distances to five Boston employment centres
- RAD index of accessibility to radial highways
- TAX full-value property-tax rate per $10,000
- PTRATIO pupil-teacher ratio by town
- B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
- LSTAT % lower status of the population
- MEDV Median value of owner-occupied homes in $1000's
:Missing Attribute Values: None
:Creator: Harrison, D. and Rubinfeld, D.L.
This is a copy of UCI ML housing dataset.
http://archive.ics.uci.edu/ml/datasets/Housing
This dataset was taken from the StatLib library which is maintained at Carnegie Mellon University.

运行data.feature_names和data.target将分别打印自变量和因变量的列名。意思是,Scikit学习已经将房屋价值/价格数据设置为目标变量,并将13个其他变量设置为预测变量。我们来看看如何对这个数据集进行线性回归。

首先,我们应该将数据作为pandas数据框加载,以便于分析,并将住房价值中位数值设置为目标变量:

import numpy as np
import pandas as pd
# 将数据/预测变量定义为预设的特征名称
df = pd.DataFrame(data.data, columns=data.feature_names)
# 将目标 (住房价值 -- MEDV) 放到另一个DataFrame
target = pd.DataFrame(data.target, columns=["MEDV"])

我们在这里做的是获取数据集并将其作为pandas数据框加载;之后,我们设置预测变量(如df) - 在数据集中预先设置的自变量。我们还设定了目标 - 因变量,或者我们试图预测/估计的变量。

接下来,我们将要拟合线性回归模型。我们需要选择我们认为对因变量有好的预测因子的变量 - 可以通过检查变量之间的相关性来完成,通过绘制数据和可视化来完成,通过对什么变量进行初步研究是y的良好预测因子。对于第一个例子,让我们来看RM - 平均房间数量和LSTAT - 居民人数降低的百分比。值得注意的是,Statsmodels在默认情况下不会添加常量。让我们先看一下我们的回归模型中没有一个常数:

## 没有一个常数
import statsmodels.api as sm
X = df["RM"]
y = target["MEDV"]
# 注意参数顺序的区别
model = sm.OLS(y, X).fit()
predictions = model.predict(X) # 通过模型进行预测
# 打印出统计模型
model.summary()

输出:

解释表 - 这是一张很长的表,对吧?首先,我们有什么是因变量,模型和方法。OLS代表普通最小二乘法,方法“最小二乘法”意味着我们试图拟合一条回归线,使回归线距离的平方最小化(参阅本文前面部分)。日期和时间非常不言自明:)所以观察数字。残差和模型的Df与自由度 有关 - “最终计算的数值可以自由变化的统计量”。

3.634的系数意味着随着RM变量增加1,MDEV的预测值增加了3.634。其他一些重要的值是R² - 我们的模型解释的方差百分比;标准误差(是统计量的抽样分布的标准偏差,最常见的均值);假设检验的t分数和p值,RM具有统计学显著的p值;95%的置信区间RM(意思是我们预测95%的置信度RM的值在3.548至3.759之间)。

如果我们要在模型中添加一个常数 - 我们必须使用命令来设置它,X = sm.add_constant(X)其中X是包含输入(自)变量的数据框的名称。

import statsmodels.api as sm # 导入statsmodels
X = df["RM"] ## X通常表示我们的输入变量 (或自变量)
y = target["MEDV"] ## Y通常表示输出/因变量
X = sm.add_constant(X) ## 我们添加一个截距(beta_0)到我们的模型
# 注意参数顺序的区别
model = sm.OLS(y, X).fit() ## sm.OLS(输出, 输入)
predictions = model.predict(X)
# 打印出统计模型
model.summary()

输出:

解释表  - 用常数项,系数是不同的。没有一个常数,我们就会强迫我们的模型通过原点,但现在我们在-34.67有一个y截距。我们还将RM预测因子的斜率从3.634改为9.1021。

现在让我们尝试用一个以上变量来训练回归模型,我们将使用之前提到的RM和LSTAT。模型拟合是一样的:

X = df[[“RM”, “LSTAT”]]
y = target[“MEDV”]
model = sm.OLS(y, X).fit()
predictions = model.predict(X)
model.summary()

输出:

注意:这张表看起来不一样,因为我已经更新了我的Jupyter Notebook

解释输出  - 我们可以看到这个模型具有更高的R² - 0.948,这意味着这个模型解释了我们的因变量的94.8%的方差。每当我们将变量添加到回归模型中时,R²将更高,但这是相当高的R²。我们可以看出,RM和LSTAT在预测(或估计)房屋价值中位数时具有统计学意义;毫不奇怪,我们看到,随着RM增加1,MEDV将增加4.9069,当LSTAT增加1时,MEDV将下降 -0.6557。你可能记得,LSTAT是人口下降的百分比,不幸的是我们可以预期它会降低房屋的中位数。同样的逻辑,房子里的房间越多,它的价值就越高。

这是Statsmodels中单一和多元线性回归的例子。我们可以在我们的回归模型中使用尽可能少或尽可能多的的变量,直到所有的13个变量!接下来,我将演示如何在SKLearn中运行线性回归模型。

SKLearn中的线性回归

在Python中的机器学习方面,SKLearn几乎是黄金标准。它有许多学习算法,用于回归,分类,聚类和降维。查看我在关于KNN算法的文章,了解不同算法的映射以及与SKLearn的更多链接。为了使用线性回归,我们需要导入它:

from sklearn import linear_model

我们使用之前使用的数据集,波士顿房价。开始的过程是一样的 - 从SKLearn导入数据集并加载到波士顿数据集:

from sklearn import datasets ## 从scikit-learn导入数据集

data = datasets.load_boston() ## 从数据集库中加载波士顿数据集

接下来,我们将把数据加载到Pandas(和之前一样):

# 将数据/预测变量定义为预设的特征名称
df = pd.DataFrame(data.data, columns=data.feature_names)
# 将目标 (住房价值 -- MEDV) 放到另一个DataFrame
target = pd.DataFrame(data.target, columns=["MEDV"])
所以现在,像以前一样,我们拥有包含自变量(标记为“df”)的数据框和带有因变量(标记为“target”)的数据框。我们使用SKLearn拟合一个回归模型。首先我们定义我们的X和y - 这一次我将使用数据框中的所有变量来预测房价:
X = df
y = target[“MEDV”]
然后我们拟合一个模型:
lm = linear_model.LinearRegression()
model = lm.fit(X,y)
lm.fit()函数来拟合线性模型。我们想使用这个模型做出预测(这就是我们在这里的目的!),所以我们使用lm.predict():
predictions = lm.predict(X)
print(predictions)[0:5]
译者注:print(predictions)[0:5]应该为print(predictions[0:5])
打印函数将打印出对y的前5个预测值(我没有把整个列表打印出来,以“节省空间”)。删除[0:5]将打印整个列表):
[ 30.00821269 25.0298606 30.5702317 28.60814055 27.94288232]
记住,lm.predict()使用我们拟合的线性模型预测y(因变量)。你们必须注意到,当我们使用SKLearn进行线性回归时,我们没有得到一个漂亮的表(好吧,这并不是那么漂亮...但它很有用)像在Statsmodels。我们可以做的是使用内置函数来返回分数、系数和估计的截距。让我们看看它是如何工作的:
lm.score(X,y)
会给出这个输出:
0.7406077428649428
这是我们模型的R²得分。你可能记得,这是预测方差的百分比。如果你有兴趣,阅读这里了解更多内容。接下来,我们来看看预测因子的系数:
lm.coef_
会给出这个输出:
array([ -1.07170557e-01, 4.63952195e-02, 2.08602395e-02,
2.68856140e+00, -1.77957587e+01, 3.80475246e+00,
7.51061703e-04, -1.47575880e+00, 3.05655038e-01,
-1.23293463e-02, -9.53463555e-01, 9.39251272e-03,
-5.25466633e-01])
和截距:
lm.intercept_
这将给出这个输出:
36.491103280363134

这些都是我之前提到的多元回归方程的(估计/预测)部分。查看文档了解更多关于coef_和intercept_的更多信息。

所以,这是一个关于如何在Python中进行线性回归的快速(但很长的!)的介绍。实际上,你不会使用整个数据集,但是你会将数据分成训练数据来训练你的模型和测试数据,你猜对了,测试你的模型/预测。如果你想阅读它,请查看我的下一篇博文。同时,我希望你喜欢这篇文章,我会在下一篇文章“看到”你。