神经网络堆叠神经网络聚类算法

转载

mob6454cc77b8eb 2023-10-17 23:30:04

文章标签 神经网络堆叠神经网络算法机器学习聚类 文章分类 神经网络人工智能

基于神经网络的具体算法DEC

一、简介

聚类特别依赖特征空间的选择；
先前很少有研究来解决用于聚类的特征空间学习问题；
本文提出了一种称为 $神经网络堆叠神经网络聚类算法_神经网络$ 的聚类方法，该方法通过迭代方式来同时学习特征空间(向量表示)并完成聚类；

二、聚类算法DEC

将 $神经网络堆叠神经网络聚类算法_算法_02$ 个点 $神经网络堆叠神经网络聚类算法_神经网络堆叠_03$ 聚类至 $神经网络堆叠神经网络聚类算法_算法_04$ 个簇，每个簇均有一个质心 $神经网络堆叠神经网络聚类算法_聚类_05$ 。本文不直接在数据空间 $神经网络堆叠神经网络聚类算法_聚类_06$ 上聚类，而是通过非线性映射 $神经网络堆叠神经网络聚类算法_神经网络堆叠_07$ ，将数据空间 $神经网络堆叠神经网络聚类算法_聚类_06$ 映射至特征空间 $神经网络堆叠神经网络聚类算法_算法_09$ ，其中 $神经网络堆叠神经网络聚类算法_机器学习_10$ 是可学习参数。为了避免维度灾难， $神经网络堆叠神经网络聚类算法_算法_09$ 的维度远远小于 $神经网络堆叠神经网络聚类算法_聚类_06$ 。至于非线性映射 $神经网络堆叠神经网络聚类算法_聚类_13$ ，很自然选择神经网络来进行近似。

算法 $神经网络堆叠神经网络聚类算法_神经网络_14$ 的两个目标：

在特征空间 $神经网络堆叠神经网络聚类算法_神经网络堆叠_15$ 中学习 $神经网络堆叠神经网络聚类算法_聚类_16$ 个簇心 $神经网络堆叠神经网络聚类算法_聚类_17$ (聚类)；
学习将数据映射至特征空间 $神经网络堆叠神经网络聚类算法_神经网络堆叠_15$ 的网络参数 $神经网络堆叠神经网络聚类算法_算法_19$ ；

1. 基于KL散度的聚类

给定一个初始化的非线性映射 $神经网络堆叠神经网络聚类算法_聚类_13$ 和初始化簇中心 $神经网络堆叠神经网络聚类算法_神经网络堆叠_21$ 。(如何初始化会在下一小节介绍)

$神经网络堆叠神经网络聚类算法_神经网络_14$ 使用无监督交替两阶段方法来改善聚类效果，

第一阶段：计算嵌入节点和簇中心的软分配；
第二阶段：更新映射 $神经网络堆叠神经网络聚类算法_神经网络堆叠_23$ ，并使用辅助目标分布从当前高置信度分配中细化簇中心；

1.1 计算软分配

这里使用学习 $神经网络堆叠神经网络聚类算法_算法_24$ 分布作为衡量嵌入节点与簇中心的相似度
$神经网络堆叠神经网络聚类算法_聚类_25$
其中， $神经网络堆叠神经网络聚类算法_机器学习_26$ 是 $神经网络堆叠神经网络聚类算法_聚类_27$ 嵌入后的向量； $神经网络堆叠神经网络聚类算法_聚类_28$ 是学生 $神经网络堆叠神经网络聚类算法_算法_24$ 分布的自由度(论文设 $神经网络堆叠神经网络聚类算法_神经网络_30$ )； $神经网络堆叠神经网络聚类算法_算法_31$ 被认为是分配样本 $神经网络堆叠神经网络聚类算法_聚类_32$ 至簇 $神经网络堆叠神经网络聚类算法_聚类_33$ 的概率；

1.2 KL散度最小化

该阶段通过辅助分布来进一步使各个簇更加的内聚。具体来说，模型通过将上面得到的软分配与目标分布来训练模型。为了实现这个目标，这里定义了一个基于KL散度的损失函数来衡量软分配 $神经网络堆叠神经网络聚类算法_机器学习_34$ 与辅助分布 $神经网络堆叠神经网络聚类算法_机器学习_35$ 间的差距
$神经网络堆叠神经网络聚类算法_机器学习_36$
其中， $神经网络堆叠神经网络聚类算法_算法_31$ 就是上面得到的软分配， $神经网络堆叠神经网络聚类算法_神经网络堆叠_38$ 则是一个目标分布。

下面会介绍这个目标分布怎么来的。

对于本文的聚类算法，目标分布 $神经网络堆叠神经网络聚类算法_算法_39$ 的选择非常重要。具体来说，目标分布应该具有如下性质：

能够改善聚类中簇的内聚程度；
能够更加重视高置信度分布的数据点；
每个簇中心对于损失的贡献是标准化的，防止大的簇扭曲了特征空间；

论文选择将软分配概率 $神经网络堆叠神经网络聚类算法_机器学习_34$ 进行平方，从而实现目标分布，即
$神经网络堆叠神经网络聚类算法_神经网络_41$
其中， $神经网络堆叠神经网络聚类算法_算法_42$ 是软类频率。

1.3 优化

论文使用带有momentum的 $神经网络堆叠神经网络聚类算法_聚类_43$ 来联合优化簇中心 $神经网络堆叠神经网络聚类算法_神经网络堆叠_44$ 和神经网络参数 $神经网络堆叠神经网络聚类算法_机器学习_10$ 。损失函数 $神经网络堆叠神经网络聚类算法_算法_46$ 关于每个数据点特征空间嵌入向量 $神经网络堆叠神经网络聚类算法_神经网络堆叠_47$ 的梯度和每个簇中心 $神经网络堆叠神经网络聚类算法_神经网络堆叠_48$ 的梯度为
$神经网络堆叠神经网络聚类算法_神经网络堆叠_49$
当相邻两次迭代的变化小于 $神经网络堆叠神经网络聚类算法_神经网络堆叠_50$ 时停止优化。

2. 参数初始化

前面小节假设簇中心和神经网络参数均被初始化。本小节则是具体介绍如何进行初始化。

2.1 神经网络 $神经网络堆叠神经网络聚类算法_聚类_13$ 的初始化

论文使用堆叠自编码器来无监督学习数据在特征空间中的表示。堆叠自编码器采用逐层训练的方式，每一层的降噪自编码器都会重构前一层随机加入噪音的输出。降噪自编码器是一个两层的神经网络：
$神经网络堆叠神经网络聚类算法_神经网络堆叠_52$
其中， $神经网络堆叠神经网络聚类算法_聚类_53$ 和 $神经网络堆叠神经网络聚类算法_聚类_54$ 是编码和解码层的激活函数，并且 $神经网络堆叠神经网络聚类算法_算法_55$ 是模型参数。降噪自编码器的训练方式是最小化均方损失函数 $神经网络堆叠神经网络聚类算法_聚类_56$ 。在训练完一层后，使用它的输出 $神经网络堆叠神经网络聚类算法_神经网络堆叠_57$ 作为下一层训练的输入。