机器学习k近邻算法k值的选择

关注程序员老陆

文章目录

目录
1 K值选择说明
2 小结

机器学习k近邻算法k值的选择

原创

程序员老陆 2022-09-25 00:02:06 ©著作权

文章标签 过拟合数据拟合 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者程序员老陆的原创作品，请联系作者获取转载授权，否则将追究法律责任

目录

1 K值选择说明
2 小结

1 K值选择说明

举例说明：

机器学习k近邻算法k值的选择_数据

K值过小

容易受到异常点的影响过拟合

k值过大：

受到样本均衡的问题欠拟合

K值选择问题，李航博士的一书「统计学习方法」上所说：

选择较小的K值，就相当于用较小的领域中的训练实例进行预测，

“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，
换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；

选择较大的K值，就相当于用较大领域中的训练实例进行预测，

其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误。
且K值的增大就意味着整体的模型变得简单。

K=N（N为训练样本个数），则完全不足取，

因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单，忽略了训练实例中大量有用信息。

在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是把训练数据在分成两组:训练集和验证集）来选择最优的K值。

近似误差
：

对现有训练集的训练误差，关注训练集，
如果近似误差过小可能会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较大偏差的预测。
模型本身不是最接近最佳模型。

估计误差
：

可以理解为对测试集的测试误差，关注测试集，
估计误差小说明对未知数据的预测能力好，
模型本身最接近最佳模型。

2 小结

KNN中K值大小选择对模型的影响

K值过小

容易受到异常点的影响
容易过拟合

k值过大：

受到样本均衡的问题
容易欠拟合

近似误差、估计误差基本概念介绍【了解】

近似误差

对现有训练集的训练误差，关注训练集

估计误差

可以理解为对测试集的测试误差，关注测试集

赞
收藏
评论
分享
举报

上一篇：机器学习鸢尾花数据集分析

下一篇：机器学习k近邻算法鸢尾花种类预测

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册