pythonk近邻图像 k近邻回归算法python

转载

mob64ca140b82e3 2023-11-06 20:40:04

文章标签 pythonk近邻图像 k近邻回归算法python 数据数据集 ci 文章分类 Python 后端开发

上节我们简单介绍了K近邻算法的使用方法，本节我们继续介绍K近邻算法用于回归，本次我们使用wave数据集来进行测试，我们分别选取2个和5个邻居来看一下wave数据的预测结果，对应的代码如下：

import mglearn

from sklearn.model_selection import train_test_split

mglearn.plots.plot_knn_regression(n_neighbors=2)

mglearn.plots.plot_knn_regression(n_neighbors=5)

用于K临近算法是在scikit-learn的KNeighborsRegressor类中实现。其具体用法和KNeighborsClassifier用法一样，下面我们使用100个样本，然后通过使用不同的邻居个数来看一下wave数据的预测结果，对应代码如下：

from sklearn.neighbors import KNeighborsRegressor

x, y = mglearn.datasets.make_wave(n_samples=100)

#将wave数据集分为训练集和测试集

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0)

#模型实例化，并将邻居个数设为5

reg = KNeighborsRegressor(n_neighbors=5)

#利用训练数据和训练目标值来拟合模型

reg.fit(x_train, y_train)

print("Test set predictions:\n{}".format(reg.predict(x_test)))

print("Test set R^2: {:.2f}".format(reg.score(x_test, y_test)))

fig, axes = plt.subplots(1, 3, figsize=(15, 4))

#创建1000个数据点，在-3和3之间均匀分布

line = np.linspace(-3, 3, 1000).reshape(-1, 1)

for n_neighbors, ax in zip([1, 9，25], axes):

#利用1，3和9、25个邻居分别进行预测

reg = KNeighborsRegressor(n_neighbors=n_neighbors)

reg.fit(x_train, y_train)

ax.plot(line, reg.predict(line))

ax.plot(x_train, y_train, '^', c=mglearn.cm2(0), markersize=8)

ax.plot(x_test, y_test, 'v', c=mglearn.cm2(1), markersize=9)

ax.set_title("{} neighbor(s)\n train score: {:.2f} test score: {:.2f}".format(

n_neighbors, reg.score(x_train, y_train), reg.score(x_test, y_test)))

ax.set_xlabel("Feature")

ax.set_ylabel("Target")

axes[0].legend(["Model predicitons", "training data/target", "test data/target"], loc="best")

运行结果如下：

根据上述结果可以看出，当只用一个邻居时，每一个点的数据都对预测结果有影响，这个时候的训练精确度最高，随着邻居个数的增加，跳动比较大的点对结果的影响逐渐见底，训练精度也逐渐降低，预测结果也逐渐平稳，但是其拟合效果不好。所以，一般情况下，综合训练精度和稳定性考虑，一般邻居个数选择较小的邻居个数，一般3-5个。

K临近算法的有点、缺点以及参数：K临近算法的有点事模型易于理解，通常不需要过多的调节就可以得到不错的性能。在没有接触更高技术之前，该算法是一个很好地基础算法，且其构建速度快，一般适用于训练集较小的模型。

缺点：在训练集很大时(特征数很多或者样本数很大)，同时预测速度可能会比较慢。且使用该算法比较依赖对数据的预处理(后续介绍怎么预处理数据)。尤其对于稀疏数据集(多数值为零的数据集)效果尤其不好。

参数：一般来说，K近邻分类器有两个重要的参数：邻居个数和数据点之间距离的度量方法。在实践中，使用较小的邻居个数(一般3-5个)往往会得到较好的结果。但是为了综合考虑其性能，则需要对该参数做相应的调整。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。