机器学习（MACHINE LEARNING）Sklearn通用学习模式

原创

李响Superb 2022-03-01 15:18:03 ©著作权

文章标签 数据 5e 模型预测 C 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者李响Superb的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

1 选择学习方法
2 通用学习模式
3 sklearn数据库
4 sklearn常用属性和功能

1 选择学习方法

安装完 Sklearn 后，不要直接去用，先了解一下都有什么模型方法，然后选择适当的方法，来达到你的目标。

Sklearn 官网提供了一个流程图，蓝色圆圈内是判断条件，绿色方框内是可以选择的算法：
机器学习（MACHINE LEARNING）Sklearn通用学习模式_模型预测

从 START 开始，首先看数据的样本是否 >50，小于则需要收集更多的数据。

由图中，可以看到算法有四类，分类，回归，聚类(无监督)，降维。

其中分类和回归是监督式学习，即每个数据对应一个 label。聚类是非监督式学习，即没有 label。另外一类是降维，当数据集有很多很多属性的时候，可以通过降维算法把属性归纳起来。例如 20 个属性只变成 2 个，注意，这不是挑出 2 个，而是压缩成为 2 个，它们集合了 20 个属性的所有特征，相当于把重要的信息提取的更好，不重要的信息就不要了。

然后看问题属于哪一类问题，是分类还是回归，还是聚类，就选择相应的算法。当然还要考虑数据的大小，例如 100K 是一个阈值。

可以发现有些方法是既可以作为分类，也可以作为回归，例如 SGD。

2 通用学习模式

2.1 要点

Sklearn 把所有机器学习的模式整合统一起来了，学会了一个模式就可以通吃其他不同类型的学习模式。

例如，分类器，

Sklearn 本身就有很多数据库，可以用来练习。以 Iris 的数据为例，这种花有四个属性，花瓣的长宽，茎的长宽，根据这些属性把花分为三类。

我们要用分类器去把四种类型的花分开。
机器学习（MACHINE LEARNING）Sklearn通用学习模式_C_02
用 KNN classifier，就是选择几个临近点，综合它们做个平均来作为预测值。

2.2 代码实现

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier #K近邻算法


iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

#print(iris_X[:2, :])
#print(iris_y)


X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)# test30%

#print(y_train)#daluan

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)

2.3 重要代码讲解

导入模块
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

创建数据
加载 iris 的数据，把属性存在 X，类别标签存在 y：

iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
观察一下数据集，X 有四个属性，y 有 0，1，2 三类：

print(iris_X[:2, :])
print(iris_y)

“”"
[[ 5.1 3.5 1.4 0.2]
[ 4.9 3. 1.4 0.2]]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
“”"
把数据集分为训练集和测试集，其中 test_size=0.3，即测试集占总数据的 30%：

X_train, X_test, y_train, y_test = train_test_split(
iris_X, iris_y, test_size=0.3)
可以看到分开后的数据集，顺序也被打乱，这样更有利于学习模型：

print(y_train)

“”"
[2 1 0 1 0 0 1 1 1 1 0 0 1 2 1 1 1 0 2 2 1 1 1 1 0 2 2 0 2 2 2 2 2 0 1 2 2
2 2 2 2 0 1 2 2 1 1 1 0 0 1 2 0 1 0 1 0 1 2 2 0 1 2 2 2 1 1 1 1 2 2 2 1 0
1 1 0 0 0 2 0 1 0 0 1 2 0 2 2 0 0 2 2 2 1 2 0 0 2 1 2 0 0 1 2]
“”"
建立模型－训练－预测
定义模块方式 KNeighborsClassifier()，用 fit 来训练 training data，这一步就完成了训练的所有步骤，后面的 knn 就已经是训练好的模型，可以直接用来 predict 测试集的数据，对比用模型预测的值与真实的值，可以看到大概模拟出了数据，但是有误差，是不会完完全全预测正确的。

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)

“”"
[2 0 0 1 2 2 0 0 0 1 2 2 1 1 2 1 2 1 0 0 0 2 1 2 0 0 0 0 1 0 2 0 0 2 1 0 1
0 0 1 0 1 2 0 1]
[2 0 0 1 2 1 0 0 0 1 2 2 1 1 2 1 2 1 0 0 0 2 1 2 0 0 0 0 1 0 2 0 0 2 1 0 1
0 0 1 0 1 2 0 1]
“”"

3 sklearn数据库

3.1 要点

机器学习（MACHINE LEARNING）Sklearn通用学习模式_5e_03
eg: boston 房价, 糖尿病, 数字, Iris 花。

也可以生成虚拟的数据，例如用来训练线性回归模型的数据，可以用函数来生成。

sklearn 强大数据库

例如，点击进入 boston 房价的数据，可以看到 sample 的总数，属性，以及 label 等信息。
机器学习（MACHINE LEARNING）Sklearn通用学习模式_5e_04
sklearn 强大数据库

如果是自己生成数据，按照函数的形式，输入 sample，feature，target 的个数等等。

sklearn.datasets.make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[source]

3.2 代码实现

from sklearn import datasets
from sklearn.linear_model import LinearRegression # 回归模型
import matplotlib.pyplot as plt


loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
model.fit(data_X, data_y)

print(model.predict(data_X[:4, :]))
print(data_y[:4])

#X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)# 创建数据供学习


#plt.scatter(X, y)
#plt.show()
# 自己的
X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=50)
plt.scatter(X, y)
plt.show()

机器学习（MACHINE LEARNING）Sklearn通用学习模式_数据_05

3.3 代码解释

导入模块
导入 datasets 包，本文以 Linear Regression 为例。

from future import print_function
from sklearn import datasets
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

导入数据－训练模型
用 datasets.load_boston() 的形式加载数据，并给 X 和 y 赋值，这种形式在 Sklearn 中都是高度统一的。

loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target
定义模型。

可以直接用默认值去建立 model，默认值也不错，也可以自己改变参数使模型更好。然后用 training data 去训练模型。

model = LinearRegression()
model.fit(data_X, data_y)
再打印出预测值，这里用 X 的前 4 个来预测，同时打印真实值，作为对比，可以看到是有些误差的。

print(model.predict(data_X[:4, :]))
print(data_y[:4])

“”“
[ 30.00821269 25.0298606 30.5702317 28.60814055]
[ 24. 21.6 34.7 33.4]
”“”
为了提高准确度，可以通过尝试不同的 model，不同的参数，不同的预处理等方法，入门的话可以直接用默认值。

创建虚拟数据－可视化
下面是创造数据的例子。

用函数来建立 100 个 sample，有一个 feature，和一个 target，这样比较方便可视化。

X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)
用 scatter 的形式来输出结果。

plt.scatter(X, y)
plt.show()
可以看到用函数生成的 Linear Regression 用的数据。

noise 越大的话，点就会越来越离散，例如 noise 由 10 变为 50.
机器学习（MACHINE LEARNING）Sklearn通用学习模式_5e_06

4 sklearn常用属性和功能

from sklearn import datasets
from sklearn.linear_model import LinearRegression # 回归模型
import matplotlib.pyplot as plt


loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
model.fit(data_X, data_y)

#print(model.predict(data_X[:4, :]))
#print(data_y[:4])


#print(model.coef_) # y=0.1x+0.3 0.1
#print(model.intercept_) # 0.3


#print(model.get_params())#返回模型参数 没有定义则默认


print(model.score(data_X,data_y)) # R^2 coefficient of determination 决定系数（coefficient ofdetermination），有的教材上翻译为判定系数，也称为拟合优度。

上次学了 Sklearn 中的 data sets，今天来看 Model 的属性和功能。

这里以 LinearRegressor 为例，所以先导入包，数据，还有模型。

from sklearn import datasets
from sklearn.linear_model import LinearRegression

loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
训练和预测
接下来 model.fit 和 model.predict 就属于 Model 的功能，用来训练模型，用训练好的模型预测。

model.fit(data_X, data_y)

print(model.predict(data_X[:4, :]))

“”"
[ 30.00821269 25.0298606 30.5702317 28.60814055]
“”"
参数和分数
然后，model.coef_ 和 model.intercept_ 属于 Model 的属性，例如对于 LinearRegressor 这个模型，这两个属性分别输出模型的斜率和截距（与y轴的交点）。

print(model.coef_)
print(model.intercept_)

“”"
[ -1.07170557e-01 4.63952195e-02 2.08602395e-02 2.68856140e+00
-1.77957587e+01 3.80475246e+00 7.51061703e-04 -1.47575880e+00
3.05655038e-01 -1.23293463e-02 -9.53463555e-01 9.39251272e-03
-5.25466633e-01]
36.4911032804
“”"

model.get_params() 也是功能，它可以取出之前定义的参数。

print(model.get_params())

“”"
{‘copy_X’: True, ‘normalize’: False, ‘n_jobs’: 1, ‘fit_intercept’: True}
“”"
model.score(data_X, data_y) 它可以对 Model 用 R^2 的方式进行打分，输出精确度。关于 R^2 coefficient of determination 可以查看 wiki

print(model.score(data_X, data_y)) # R^2 coefficient of determination

上次学了 Sklearn 中的 data sets，今天来看 Model 的属性和功能。

这里以 LinearRegressor 为例，所以先导入包，数据，还有模型。

from sklearn import datasets
from sklearn.linear_model import LinearRegression

loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
训练和预测
接下来 model.fit 和 model.predict 就属于 Model 的功能，用来训练模型，用训练好的模型预测。

model.fit(data_X, data_y)

print(model.predict(data_X[:4, :]))

print(model.coef_)
print(model.intercept_)

model.get_params() 也是功能，它可以取出之前定义的参数。

print(model.get_params())

print(model.score(data_X, data_y)) # R^2 coefficient of determination
上次学了 Sklearn 中的 data sets，今天来看 Model 的属性和功能。

这里以 LinearRegressor 为例，所以先导入包，数据，还有模型。

from sklearn import datasets
from sklearn.linear_model import LinearRegression

loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
训练和预测
接下来 model.fit 和 model.predict 就属于 Model 的功能，用来训练模型，用训练好的模型预测。

model.fit(data_X, data_y)

print(model.predict(data_X[:4, :]))

print(model.coef_)
print(model.intercept_)

model.get_params() 也是功能，它可以取出之前定义的参数。

print(model.get_params())

print(model.score(data_X, data_y)) # R^2 coefficient of determination

上次学了 Sklearn 中的 data sets，今天来看 Model 的属性和功能。

这里以 LinearRegressor 为例，所以先导入包，数据，还有模型。

from sklearn import datasets
from sklearn.linear_model import LinearRegression

loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
训练和预测
接下来 model.fit 和 model.predict 就属于 Model 的功能，用来训练模型，用训练好的模型预测。

model.fit(data_X, data_y)

print(model.predict(data_X[:4, :]))

print(model.coef_)
print(model.intercept_)

model.get_params() 也是功能，它可以取出之前定义的参数。

print(model.get_params())

print(model.score(data_X, data_y)) # R^2 coefficient of determination

“”"
0.740607742865
“”"

上次学了 Sklearn 中的 data sets，今天来看 Model 的属性和功能。

这里以 LinearRegressor 为例，所以先导入包，数据，还有模型。

from sklearn import datasets
from sklearn.linear_model import LinearRegression

loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
训练和预测
接下来 model.fit 和 model.predict 就属于 Model 的功能，用来训练模型，用训练好的模型预测。

model.fit(data_X, data_y)

print(model.predict(data_X[:4, :]))

print(model.coef_)
print(model.intercept_)

model.get_params() 也是功能，它可以取出之前定义的参数。

print(model.get_params())

print(model.score(data_X, data_y)) # R^2 coefficient of determination

上次学了 Sklearn 中的 data sets，今天来看 Model 的属性和功能。

这里以 LinearRegressor 为例，所以先导入包，数据，还有模型。

from sklearn import datasets
from sklearn.linear_model import LinearRegression

loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
训练和预测
接下来 model.fit 和 model.predict 就属于 Model 的功能，用来训练模型，用训练好的模型预测。

model.fit(data_X, data_y)

print(model.predict(data_X[:4, :]))

print(model.coef_)
print(model.intercept_)

model.get_params() 也是功能，它可以取出之前定义的参数。

print(model.get_params())

print(model.score(data_X, data_y)) # R^2 coefficient of determination

机器学习（MACHINE LEARNING）Sklearn通用学习模式_模型预测_07

上一篇：机器学习（MACHINE LEARNING）Sklearn全高级使用（看不懂你来打我！）

下一篇：python【Pandas科学计算库】连女朋友都会用的Pandas（真の能看懂~！）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯