参考文献:基于子空间学习的数据表示方法研究_罗鹏
对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)是一种高级的聚类方法
,用于处理多视图数据
,同时利用数据和特征空间的几何结构
,以获得更精确的聚类结果
。
DMvNSC算法在联合多个视图数据的基础上,构建了一个全局数据图
,同时对每个视图构建了特征图
,进而利用这些图来正则化分解后的因子矩阵
,以增强聚类效果。
算法主要步骤如下:
- 多视图数据分解:将
多视图数据
表示为一系列视图矩阵
,其中每个 对应一个视图
, 为第
个视图的特征维度
, 为数据点的数量
。DMvNSC算法通过非负矩阵分解
(NMF)将每个视图矩阵分解为基矩阵
和编码矩阵
,即 。 - 构建数据图和特征图:对每个视图构建
特征图
,反映特征间
的相似度
;同时,利用所有视图的丰富信息构建一个全局数据图
,反映数据
点间的相似度
。数据图 的构建利用了自表达性
(self-expressiveness)和稀疏性
原则,即每个数据点可以被其他少数几个相似的
数据点线性表示
,这有助于自动调整数据点间的相似性关系
,无需额外参数设定。 - 无参数数据图构建:利用
稀疏性
原理,通过寻找每个数据点最相似
的少数数据点来重构目标数据点
,从而自动构建数据图
。不同视图的数据图通过线性组合得到全局数据图
,组合的权重系数
可通过优化自动学习,权重越大意味着该视图的重构误差越小
,捕捉数据点间语义关联的能力越强。 - 正则化约束:在分解的过程中,
对分解后的因子矩阵施加正则化约束
,包括数据图正则化
和特征图正则化
,以保持数据和特征的几何结构。数据图正则化项确保了数据点在子空间中保持原有的流形结构
,特征图正则化项则确保特征在子空间中也保持流形结构。
- 优化求解:提出了一种迭代更新方法来优化求解上述问题,确保了算法的收敛性。
公式方面,DMvNSC算法的目标函数可能包含以下组件:
- 数据重构误差项:
- 数据图正则化项:
- 特征图正则化项:
- 其他可能的正则化项,如稀疏性约束、正交性约束等。
- :表示
第 v 个视图的数据矩阵
,其中每个列向量代表一个数据样本在该视图下的特征表示。 - :表示
第v个视图下的基矩阵
,它是由一组基向量组成的矩阵,用于重构数据矩阵。 - :表示
编码矩阵,它是一致的,即在所有视图中都是相同的
,用于表示数据点在子空间中的编码。 - :表示
数据重构误差项
,使用Frobenius范数衡量数据矩阵
和通过基矩阵
和编码矩阵
重构的结果之间的差异,目的是最小化
这种差异,确保重构的准确性。 - :
数据图正则化项
的权重参数,用于平衡数据重构误差和数据图正则化项的重要性。 - :
特征图正则化项
的权重参数,用于平衡数据重构误差和特征图正则化项的重要性。 - :表示
全局数据图
中节点
i 和 j 之间的相似度或权重
,反映了数据点 i 和 j 在多视图数据中的相似程度。
- :表示
特征图
中特征
i 和 j 之间的相似度或权重
,反映了不同视图下特征之间的关联性。
- :表示
编码矩阵
中第 i 个和第 j 个列向量之间的欧几里得距离的平方
,用于衡量数据点 i 和 j 在子空间中的相似性。
- :表示
基矩阵
中第 i 个和第 j 个列向量之间的欧几里得距离的平方
,用于衡量特征i和j在子空间中的相似性。
通过上述步骤,DMvNSC算法能够有效地利用多视图数据的内在关联
,充分挖掘数据和特征
的空间结构,为数据提供更丰富的语义表示
,从而提高聚类
性能。