导语:局部空间的线性拟合非线性(近邻分析,决策树),高维空间平面在低维空间的展示(例如:多项式;神经网络;SVM用核函数假装去高维)。
一、k-近邻
(一)步骤
1. 距离界定近邻
- 欧氏距离
- DTW距离:衡量两个长度不同的时间序列的相似度
2. 参数k(调参)
- 1-近邻分类的优势:适用于实际分类边界极不规则的情况;错判率不高于贝叶斯方法的两倍
- k越大,平面越光滑,模型越简单
p.s.改进:基于观测相似性的加权k近邻(权重用距离的倒数或核函数 e.g.均匀核函数或高斯核函数)
(二)图形表示
类似分段,但如果k越大或者样本量越大,越光滑。
(三)适用性
1、适用于维度较低的情况。随着空间维度p的增加,邻域局部性特征逐渐消失。
2、适用于输入变量为数值型的情况。会默认分类变量很重要。
从统计视角看k-近邻,是基函数的一个特例。
补充:回归样条中的k(节点数)和d(多项式的阶数):k调节平滑程度,过大容易过拟合