参考文献:基于子空间学习的数据表示方法研究_罗鹏 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)是一种高级的聚类方法,用于处理多视图数据,同时利用数据和特征空间的几何结构,以获得更精确的聚类结果

DMvNSC算法在联合多个视图数据的基础上,构建了一个全局数据图,同时对每个视图构建了特征图,进而利用这些图来正则化分解后的因子矩阵,以增强聚类效果。

算法主要步骤如下:

  1. 多视图数据分解:将多视图数据表示为一系列视图矩阵 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习,其中每个对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习 对应一个视图对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_03 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_正则化_04 个视图的特征维度对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_聚类_05数据点的数量。DMvNSC算法通过非负矩阵分解(NMF)将每个视图矩阵分解为基矩阵 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_算法_06编码矩阵 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_07,即 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_08
  2. 构建数据图和特征图:对每个视图构建特征图 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_正则化_09,反映特征间相似度;同时,利用所有视图的丰富信息构建一个全局数据图 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_10,反映数据点间的相似度。数据图 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_10 的构建利用了自表达性(self-expressiveness)和稀疏性原则,即每个数据点可以被其他少数几个相似的数据点线性表示,这有助于自动调整数据点间的相似性关系,无需额外参数设定。
  3. 无参数数据图构建:利用稀疏性原理,通过寻找每个数据点最相似的少数数据点来重构目标数据点,从而自动构建数据图。不同视图的数据图通过线性组合得到全局数据图,组合的权重系数可通过优化自动学习,权重越大意味着该视图的重构误差越小,捕捉数据点间语义关联的能力越强。
  4. 正则化约束:在分解的过程中,对分解后的因子矩阵施加正则化约束,包括数据图正则化特征图正则化,以保持数据和特征的几何结构。数据图正则化项确保了数据点在子空间中保持原有的流形结构,特征图正则化项则确保特征在子空间中也保持流形结构。
  5. 优化求解:提出了一种迭代更新方法来优化求解上述问题,确保了算法的收敛性。

公式方面,DMvNSC算法的目标函数可能包含以下组件:

  • 数据重构误差项:对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_算法_12
  • 数据图正则化项:对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_13
  • 特征图正则化项:对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_14
  • 其他可能的正则化项,如稀疏性约束、正交性约束等。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_15:表示第 v 个视图的数据矩阵,其中每个列向量代表一个数据样本在该视图下的特征表示。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_算法_06:表示第v个视图下的基矩阵,它是由一组基向量组成的矩阵,用于重构数据矩阵对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_15
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_07:表示编码矩阵,它是一致的,即在所有视图中都是相同的,用于表示数据点在子空间中的编码。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_算法_19:表示数据重构误差项,使用Frobenius范数衡量数据矩阵对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_15和通过基矩阵对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_算法_06编码矩阵对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_07重构的结果之间的差异,目的是最小化这种差异,确保重构的准确性。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_正则化_23数据图正则化项的权重参数,用于平衡数据重构误差和数据图正则化项的重要性。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_正则化_24特征图正则化项的权重参数,用于平衡数据重构误差和特征图正则化项的重要性。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_25:表示全局数据图节点 i 和 j 之间的相似度或权重,反映了数据点 i 和 j 在多视图数据中的相似程度。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_数据_26:表示特征图特征 i 和 j 之间的相似度或权重,反映了不同视图下特征之间的关联性。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_27:表示编码矩阵对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_机器学习_07中第 i 个和第 j 个列向量之间的欧几里得距离的平方,用于衡量数据点 i 和 j 在子空间中的相似性。
  • 对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_算法_29:表示基矩阵对偶正则化的多视图子空间聚类算法(Dual-regularized Multi-view Subspace Clustering, DMvNSC)_算法_30中第 i 个和第 j 个列向量之间的欧几里得距离的平方,用于衡量特征i和j在子空间中的相似性。

通过上述步骤,DMvNSC算法能够有效地利用多视图数据的内在关联,充分挖掘数据和特征的空间结构,为数据提供更丰富的语义表示,从而提高聚类性能。