参考文献:基于子空间学习的数据表示方法研究_罗鹏
文章中提出的基于 范数和海森正则化判别性的非负矩阵分解算法(HNMFD)是一种创新的数据表示方法,用于解决高维数据降维问题
,同时保留数据的局部几何结构
,确保表示的稀疏性和判别性
。以下是该算法的详细介绍和相关公式:
HNMFD算法的核心思想
- 海森正则化:传统的
图拉普拉斯正则化
可能使表示偏向于固定值
,减弱
了数据局部几何结构的保持。海森正则化
通过引入二阶能量
(海森能量),使得函数值随测地线距离线性变化
,更好地保持了数据的局部流形结构。
- 范数:
标准非负矩阵分解
(NMF)可能无法保证分解因子的稀疏性
。范数是一种特殊的矩阵范数
,通过约束编码矩阵V的每一行,实现行稀疏性
,即选择性
地保留重要的特征维度,剔除不重要
的特征。 - 判别性信息:NMF通常忽视了数据间的判别信息。HNMFD通过
近似正交约束
,挖掘出数据的判别性信息,增强表示的判别能力。
目标方程和优化
HNMFD的目标方程综合了数据拟合误差
、海森正则化
、范数约束和判别性信息约束
。具体目标方程如下:
- (X) 是
非负数据矩阵
。 - (U) 和 (V) 分别是
基矩阵
和编码矩阵
。 -
控制
编码矩阵(V)的光滑性。
- 的含义是
矩阵的迹
,即矩阵对角线元素之和。
- (L) 是
图拉普拉斯矩阵。
- 和 分别控制
范数
和海森正则化的强度。
- (B) 是
用于估计海森正则化F范数的矩阵。
更新规则
HNMFD使用迭代乘子法
求解上述优化问题,更新规则如下:
- 更新(U):
- 更新(V):
其中, 表示按元素乘法
, 是用于计算 范数的对角矩阵。
实验验证
实验在YALE、ORL和UMIST三个数据集上展示了HNMFD算法的收敛性。结果显示,在迭代初期,目标方程迅速下降
,通常在100次迭代内就能收敛。这表明HNMFD在实际应用中具有良好的收敛性能。
总结
HNMFD算法通过海森正则化保持数据的局部几何结构
,通过 范数约束实现行稀疏性
,通过近似正交约束增强表示的判别性
,从而为高维数据提供了一个有效的低维表示。