非监督分类,是机器学习的一种方法,训练数据中不带标签,让机器自动寻找数据规律并完成任务。

特点:

1、数据不需要标签;

2、算法不受监督信息(偏见)约束。

优点:

1、极大难度降低数据采集难度,极大程序扩大样本量;

2、可能发现新的数据规律,被忽略的重要信息;

主要运用:聚类分析、关联规则、维度缩减

聚类分析:把数据样本按照一定的方法分成不同的组别,让同一个组中的成员对象都有相似的一些属性。可实现例如:目标用户的群体分类,图像切割,基因聚类。

最基本的方法有K-Means分类法

K均值聚类:

        在样本数据空间中选取K个点作为中心,计算每个样本到各中心的距离,根据距离确定数据类别,是聚类算法中最为基础但最为重要的算法。中心点会根据类别内样本的数据更新中心点的位置。

其核心流程如下:

1、基于观察与经验确定聚类的个数;

2、确定K个中心点

3、计算样本到各个中心点的距离;

4、根据距离确定各个样本的所属类别;

5、计算同类别的样本的中心点,将其设定为新的中心;

6、重复步骤3-5直到收敛(中心点不再变化)。

K均值聚类实现图像分割,最基础的实现方法:灰度阈值分割。