深度学习表示能做层次聚类吗深度聚类算法

转载

技术领航舵手 2024-01-06 08:50:53

文章标签 深度学习表示能做层次聚类吗聚类算法深度学习数据库 文章分类 深度学习人工智能

聚类和分类区别

聚类和分类的本质区别就是：聚类是无监督的，分类是有监督的；
聚类主要是"物以类聚"，通过相似性把相似元素聚集在一起，它没有标签；而分类通
过标签来训练得到一个模型，对新数据集进行预测的过程，其数据存在标签。

分类

分类学习主要过程：
（1）训练数据集存在一个类标记号，判断它是正向数据集（起积极作用，不垃圾邮件），
还是负向数据集（起抑制作用，垃圾邮件）；
（2）然后需要对数据集进行学习训练，并构建一个训练的模型；
（3）通过该模型对预测数据集进预测，并计算其结果的性能。

聚类

从广义上说，聚类就是将数据集中在某些方面相似的数据成员放在一起。
一个聚类就是一些数据实例的集合，其中处于相同聚类中的数据元素彼此相似，但是处于不
同聚类中的元素彼此不同。
由于在聚类中那些表示数据类别的分类或分组信息是没有的，即这些数据是没有标签的，所
以聚类通常被归为无监督学习（Unsupervised Learning）。

聚类的常见算法

聚类算法分为三大类：

原型聚类：
• K均值聚类算法
层次聚类
密度聚类

K均值聚类算法（k-Means）

K-Means聚类是最常用的聚类算法，其目标是将数据点划分为K个类簇。
该算法的最大优点是简单、便于理解，运算速度较快，缺点是要在聚类前指定聚集的类簇数。
k-means算法是一种原型聚类算法。

实现步骤：

第一步，首先确定K值（即将数据集聚集成K个类）。
第二步，从数据集中随机选择K个数据点作为质心（Centroid）或数据中心。
第三步，分别计算每个点到每个质心之间的距离，并将每个点划分到离最近质心的小组。
第四步，当每个质心都聚集了一些点后，重新定义算法选出新的质心。（对于每个簇，计
算其均值，即得到新的k个质心点）
第五步，迭代执行第三步到第四步，直到迭代终止条件满足为止（聚类结果不再变化）
迭代终止的条件：当前分组的结果和上次没有任何变化了，说明已经收敛，聚类结束。

应用：

在图像处理中，通过K-Means聚类算法可以实现图像分割、图像识别等操作。
我们通过K-Means可以将这些像素点聚类成K个簇，然后使用每个簇内的质心点来替换簇内所有
的像素点，这样就能实现在不改变分辨率的情况下量化压缩图像颜色，实现图像颜色层级分割。

优缺点：

优点：
1.是解决聚类问题的一种经典算法，简单、快速
2.对处理大数据集，该算法保持高效率
3.当结果簇是密集的，它的效果较好
缺点：
1.必须事先给出k（要生成的簇的数目）。
2.对躁声和孤立点数据敏感

层次聚类

层次聚类是一种很直观的算法。顾名思义就是要一层一层地进行聚类。

层次法先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。其中类与类的距离的计算方法有：最短距离法，最长距离法，中间距离法，类平均法等。比如最短距离法，将类与类的距离定义为类与类之间样本的最短距离。

层次聚类算法根据层次分解的顺序分为：自下向上和自上向下，即凝聚的层次聚类算法和分裂的层次聚类算法（agglomerative和divisive），也可以理解为自下而上法（bottom-up）和自上而下法(top-down）。