非监督分类,是机器学习的一种方法,训练数据中不带标签,让机器自动寻找数据规律并完成任务。
特点:
1、数据不需要标签;
2、算法不受监督信息(偏见)约束。
优点:
1、极大难度降低数据采集难度,极大程序扩大样本量;
2、可能发现新的数据规律,被忽略的重要信息;
主要运用:聚类分析、关联规则、维度缩减。
聚类分析:把数据样本按照一定的方法分成不同的组别,让同一个组中的成员对象都有相似的一些属性。可实现例如:目标用户的群体分类,图像切割,基因聚类。
最基本的方法有K-Means分类法
K均值聚类:
在样本数据空间中选取K个点作为中心,计算每个样本到各中心的距离,根据距离确定数据类别,是聚类算法中最为基础但最为重要的算法。中心点会根据类别内样本的数据更新中心点的位置。
其核心流程如下:
1、基于观察与经验确定聚类的个数;
2、确定K个中心点
3、计算样本到各个中心点的距离;
4、根据距离确定各个样本的所属类别;
5、计算同类别的样本的中心点,将其设定为新的中心;
6、重复步骤3-5直到收敛(中心点不再变化)。
K均值聚类实现图像分割,最基础的实现方法:灰度阈值分割。