简介
使用sklearn自带的鸢尾花数据集,通过kNN算法实现了对鸢尾花的分类。
算法思路
通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的K个训练样例,K个样品中哪个类别的训练样例占多数,则待分类样品就属于哪个类别。
核心思想
如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN 方法在类别决策时,只与极少量的相邻样本有关。
鸢尾花数据集介绍
通过sklearn.datasets.load_iris()
加载并返回鸢尾花数据集,数据集主要有150行数据,包括三个相关鸢尾花种类的50个样品,三个种类分别是:山鸢尾,虹膜锦葵,变色鸢尾。
代码展示:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
def knncls():
# 加载数据
iris = load_iris()
# 分割数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.25)
# 特征工程 标准化
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
# knn算法流程
knn = KNeighborsClassifier()
knn.fit(x_train, y_train)
y_predict = knn.predict(x_test)
# # 预测结果展示
labels = ["山鸢尾", "虹膜锦葵", "变色鸢尾"]
for i in range(len(y_predict)):
print("%d: 真实值:%s \t预测值:%s" % ((i+1), labels[y_predict[i]], labels[y_test[i]]))
print("准确率:", knn.score(x_test, y_test))
if __name__ == '__main__':
knncls()
输出结果:
分析:在knn算法中有一个超参数k,在sklearn中默认为5,但是k的选择对准确率是有影响的,需要手动调试。为了让被评估的模型更加准确可信,可以采用交叉验证和网格搜索对模型进行调优。
交叉验证
基本想法:重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地训练、测试以及模型选择。
简单交叉验证:首先随机将已给数据分为两部分,一部分作为训练集,另一部分作为测试集,然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
S折交叉验证:应用最多。首先随机将已给数据切分为S个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次测评中平均测试误差最小的模型。
留一交叉验证:S折交叉验证的特殊情形是:S=N,称为留一交叉验证,往往在数据缺乏的情况下使用,N为给定数据集的容量。
网格搜索
也就是超参数搜索。通常情况下,有很多参数是需要手动指定,这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。
sklearn中的API: sklearn.model_selection.GridSearchCV
将前面的k-近邻算法鸢尾花案例改成网格搜索
代码:
knn = KNeighborsClassifier()
# 构造一些k值
param = {"n_neighbors":[3, 5, 7, 10]}
# 进行网格搜索
gc = GridSearchCV(knn, param_grid=param, cv=10)
gc.fit(x_train, y_train)
# 预测准确率
print("在测试集上准确率:", gc.score(x_test, y_test))
print("在交叉验证当中最好的结果:", gc.best_score_)
print("选择最好的模型是:", gc.best_estimator_)
print("每个超参数每次交叉验证的结果:", gc.cv_results_)
结果:
可以看出,在k=10的结果最好。
KNN算法总结
三个基本要素:距离度量、K值的选择、分类决策规则
优点
- 简单,易于理解,易于实现,无需估计参数,只有一个超参数k,无需训练
- 适合样本容量比较大的分类问题
- 特别适合多分类问题
缺点
- .knn属于懒惰算法,对测试样本分类时的计算量大(可以压缩训练样本量),内存开销大,评分慢
- 可解释性较差,无法给出决策树那样的规则
- 对于样本量较小的分类问题,会产生误分
常见问题
- K值的设定:K太小,分类结果易受噪声点的影响,K太大,近邻中又可能包含太多的其他类别的点。可以对距离加权,降低K值设定的影响。K值通常采用交叉验证来确定,一般低于训练样本数的平方根。
- 类别如何判定最合适:投票法没有考虑近邻的距离的远近,距离更近的近邻也许更应该决定最终的分类,所以加权投票法更恰当一些。
- 如何选择合适的距离衡量:
高维度对距离衡量的影响:变量数越多,欧式距离的区分能力就越差。
变量值域对距离的影响:值域越大的变量常常会在计算距离中占据主导作用,因此应先对变量进行标准化。
标准化
目的:通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内
sklearn中标准化的API:scikit-learn.preprocessing.StandardScaler