K近邻法

(用于分类问题时)

算法介绍

  1. 问题:输入已标注好类别的数据集。现给定一未知的x,求其对应的类别y。
  2. 算法:
    1. 在训练集中找到与x最近的k个点。
    2. k个点中哪个类别最多,y就是哪个类别。

三要素

  1. k值选择
    k = 1时为最近邻算法
  2. 距离度量
    • 欧氏距离
    • 曼哈顿距离
  3. 分类决策规则

kd树

kd树是一种数据结构,通过“二分”的方式来加快对结点的查询速度。
以k = 2为例。
建树:数据点通过对x或y的选择,每次被分成小于和大于两类。
查询:根据树中结点的有序性二分查找,找到叶子结点后,进行回溯,判断是否存在更优点,如下图所示。

【笔记】K近邻法_曼哈顿距离