K近邻法
(用于分类问题时)
算法介绍
- 问题:输入已标注好类别的数据集。现给定一未知的x,求其对应的类别y。
- 算法:
- 在训练集中找到与x最近的k个点。
- k个点中哪个类别最多,y就是哪个类别。
三要素
- k值选择
k = 1时为最近邻算法 - 距离度量
- 欧氏距离
- 曼哈顿距离
- 分类决策规则
kd树
kd树是一种数据结构,通过“二分”的方式来加快对结点的查询速度。
以k = 2为例。
建树:数据点通过对x或y的选择,每次被分成小于和大于两类。
查询:根据树中结点的有序性二分查找,找到叶子结点后,进行回溯,判断是否存在更优点,如下图所示。