导语:局部空间的线性拟合非线性(近邻分析,决策树),高维空间平面在低维空间的展示(例如:多项式;神经网络;SVM用核函数假装去高维)。

 一、k-近邻

(一)步骤

1. 距离界定近邻

  • 欧氏距离
  • DTW距离:衡量两个长度不同的时间序列的相似度

2. 参数k(调参)

  • 1-近邻分类的优势:适用于实际分类边界极不规则的情况;错判率不高于贝叶斯方法的两倍
  • k越大,平面越光滑,模型越简单

p.s.改进:基于观测相似性的加权k近邻(权重用距离的倒数或核函数 e.g.均匀核函数或高斯核函数)

(二)图形表示

类似分段,但如果k越大或者样本量越大,越光滑。

(三)适用性

1、适用于维度较低的情况。随着空间维度p的增加,邻域局部性特征逐渐消失。

2、适用于输入变量为数值型的情况。会默认分类变量很重要。

 

从统计视角看k-近邻,是基函数的一个特例。

补充:回归样条中的k(节点数)和d(多项式的阶数):k调节平滑程度,过大容易过拟合