机器学习之K近邻算法

原创

AomanHao 2024-03-14 23:22:34 博主文章分类：ISP图像处理相关 ©著作权

©著作权归作者所有：来自51CTO博客作者AomanHao的原创作品，请联系作者获取转载授权，否则将追究法律责任

⼀、K近邻算法

K近邻算法简单、直观。⾸先给出⼀张图，根据这张图来理解最近邻分类器。

k近邻法中，当训练集、距离度量、K值以及分类决策规则确定后，对于任何⼀个新的输⼊实例，它所属的类唯⼀地确定。这相当于根据上述要素将特征空间划分为⼀些⼦空间，确定⼦空间⾥的每个点所属的类

特征空间中两个实例点的距离可以反映出两个实⼒点之间的相似性程度。K近邻模型的特征空间。⼀般是N维实数向量空间，使⽤的距离可以是欧式距离，也可以是其他距离。

最常⻅的两点之间或多点之间的距离表示法，⼜称之为欧⼏⾥得度量，它定义于欧⼏⾥得空间中

$$ d(x,y)=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2} $$

我们可以定义曼哈顿距离的正式意义为距离或城市区块距离，也就是在欧⼏⾥得空间的固定直⻆坐标系上两点所形成的线段对轴产⽣的投射的距离总和。

$$ d(x,y)=\sum_{i=1}^{n}|x_i-y_i| $$

$$ d(x,y)=\lim_{k->无穷}(\sum_{i=1}^{n}|x_i-y_i|^k)^{1/k} $$

它不是⼀种距离，⽽是⼀组距离的定义。

$$ d(x,y)=(\sum_{i=1}^{n}|x_i-y_i|^k)^{1/k} $$

对样本集先进⾏标准化，经过简单的推导就可以得到来标准化

欧⽒距离

$$ d(x,y)=\sqrt{\sum_{i=1}^{n}(\frac{x_i-y_i}{s})^2} $$

K值得选择会对K近邻法的结果产⽣重⼤影响。

如果选择较⼩的K值，就相当于⽤较⼩的领域中的训练实例进⾏预测，“学习”近似误差会减⼩，估计误差会增⼤，换句话说，K值得减⼩就意味着整体模型变得复杂，容易发⽣过拟合（容易受到训练数据的噪声⽽产⽣的过拟合的影响）。

如果选择较⼤的K值，就相当于⽤较⼤领域中的训练实例进⾏预测，其优点是可以减⼩学习的估计误差，但缺点是学习的近似误差会增⼤。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯