译自书 《Optimization Algorithms on Matrix Manifolds》

矩阵流形上优化一个实值函数,是科研和工程中广泛存在的问题。在这一章节中,我们将会讨论几个相关的例子,以此体现研究流形优化的动机和意义。在第一部分,我们聚焦于特征值问题。 这个问题将作为一个典型的例子贯穿全书。这显然是一个非常重要的问题,已经,且仍会被广泛地研究。 作为一个优化问题,它自然地属于本书提出的框架,即其求解域是一个矩阵流形。 此外,还有大量的相关问题(特征分解, 主成分分析,广义特征值问题等),提供了大量启发式的例子来展示本书后续所要提到的算法。

之后,对于一些具有对称性的问题, 我们还会描述一些尚未被系统性归纳的方法。这些罗列的问题远非详尽, 而是作为一种启示, 让读者们可以以流形优化的角度来思考许多计算问题。

一个样例的学习: 特征值问题

矩阵的特征空间和特征值的计算是工程和物理领域的一个难题。构造特征空间的一般原则是通过关注几个相关的量而忽略其他的量来降低问题的复杂性。

各种定义

ceres 流形优化 流形上的优化_特征空间代表实数或复数域。 ceres 流形优化 流形上的优化_特征值_02代表一个 ceres 流形优化 流形上的优化_特征空间_03 矩阵,其元素属于ceres 流形优化 流形上的优化_特征空间。 任意非零向量 ceres 流形优化 流形上的优化_ceres 流形优化_05 满足:
ceres 流形优化 流形上的优化_ceres 流形优化_06

ceres 流形优化 流形上的优化_ceres 流形优化_05 代表特征向量, ceres 流形优化 流形上的优化_特征值_08 是特征值。 特征值被称为矩阵的谱。 ceres 流形优化 流形上的优化_ceres 流形优化_09被称为特征对。

ceres 流形优化 流形上的优化_特征值_02的特征值也被称为A的特征多项式的零点。
ceres 流形优化 流形上的优化_ceres 流形优化_11

对于可逆矩阵ceres 流形优化 流形上的优化_优化问题_12, ceres 流形优化 流形上的优化_ceres 流形优化_09ceres 流形优化 流形上的优化_特征值_02 的特征对,则ceres 流形优化 流形上的优化_ceres 流形优化_15ceres 流形优化 流形上的优化_优化问题_16的特征对。
ceres 流形优化 流形上的优化_优化问题_17被称为对ceres 流形优化 流形上的优化_特征值_02的相似变换。

一个ceres 流形优化 流形上的优化_特征空间的(线性)子空间可定义如下:
ceres 流形优化 流形上的优化_特征空间_20

如果空间ceres 流形优化 流形上的优化_优化问题_21的任意元素都可以表示为集合ceres 流形优化 流形上的优化_特征空间_22的线性组合,则ceres 流形优化 流形上的优化_优化问题_21被称为该集合展开的空间, 也被称为 ceres 流形优化 流形上的优化_特征值_24 矩阵ceres 流形优化 流形上的优化_特征值_25的列空间。可写为:
ceres 流形优化 流形上的优化_优化问题_26
如果ceres 流形优化 流形上的优化_ceres 流形优化_27是一个满秩矩阵,那么ceres 流形优化 流形上的优化_ceres 流形优化_27的列被称为ceres 流形优化 流形上的优化_优化问题_21的一组基。任意两组基拥有同样数量的elements, 被称为ceres 流形优化 流形上的优化_优化问题_21的维度。ceres 流形优化 流形上的优化_特征空间_31的所有ceres 流形优化 流形上的优化_特征空间_32维的子空间,表示为 ceres 流形优化 流形上的优化_特征值_33, 这在本书中非常重要。后面我们会看到 ceres 流形优化 流形上的优化_特征值_33 表示了一种被称为Grassmann流形的流形结构。

矩阵ceres 流形优化 流形上的优化_特征空间_35的(零空间)由满足ceres 流形优化 流形上的优化_特征值_36的向量ceres 流形优化 流形上的优化_特征空间_37组成。 当且仅当ceres 流形优化 流形上的优化_ceres 流形优化_38的零空间维度大于0时, ceres 流形优化 流形上的优化_特征值_08被称为ceres 流形优化 流形上的优化_特征值_02的特征值, 该零空间被称为ceres 流形优化 流形上的优化_特征值_02关于ceres 流形优化 流形上的优化_特征值_08的特征空间。

一个ceres 流形优化 流形上的优化_特征空间_03的矩阵ceres 流形优化 流形上的优化_特征值_02自然地引入了一种在 ceres 流形优化 流形上的优化_特征值_33上的映射:
ceres 流形优化 流形上的优化_ceres 流形优化_46
如果有, ceres 流形优化 流形上的优化_优化问题_47, 子空间ceres 流形优化 流形上的优化_优化问题_21被称为ceres 流形优化 流形上的优化_特征值_02的特征空间或不变子空间。

许多情况下, ceres 流形优化 流形上的优化_特征值_02是对称矩阵, 则其特征值为实数,且其特征向量两两正交。
令特征值ceres 流形优化 流形上的优化_ceres 流形优化_51ceres 流形优化 流形上的优化_特征值_52被称为ceres 流形优化 流形上的优化_特征值_02的极左特征对 (leftmost eigenpair)。 一个ceres 流形优化 流形上的优化_特征空间_32维极左不变子空间为关于ceres 流形优化 流形上的优化_特征空间_55的不变子空间。同理,ceres 流形优化 流形上的优化_特征空间_32维极右不变子空间表示为与ceres 流形优化 流形上的优化_特征空间_57关联的不变子空间。

定义由两个ceres 流形优化 流形上的优化_特征空间_58的矩阵ceres 流形优化 流形上的优化_特征值_02ceres 流形优化 流形上的优化_特征空间_35组成的矩阵束ceres 流形优化 流形上的优化_特征值_61, 如果ceres 流形优化 流形上的优化_特征空间_62
ceres 流形优化 流形上的优化_ceres 流形优化_09为该矩阵束的广义特征值。 当ceres 流形优化 流形上的优化_特征值_02是对称矩阵, ceres 流形优化 流形上的优化_特征空间_35是对称正定矩阵时,这个广义特征值问题也被称为对称/正定的。这种情况下,广义特征值将均为实数且特征向量构成ceres 流形优化 流形上的优化_特征空间_35的一组正交基。

子空间ceres 流形优化 流形上的优化_ceres 流形优化_67被称为矩阵束ceres 流形优化 流形上的优化_特征值_61的广义不变子空间, 当ceres 流形优化 流形上的优化_特征值_69。 显然,一个简单的例子就是ceres 流形优化 流形上的优化_ceres 流形优化_67由广义特征向量张成。

优化问题:特征值问题

首先给出一些有助于特征值问题规划和求解的结论。

命题2.1.1: 令ceres 流形优化 流形上的优化_特征值_02ceres 流形优化 流形上的优化_特征空间_35是两个ceres 流形优化 流形上的优化_特征空间_58的对称矩阵,且ceres 流形优化 流形上的优化_特征空间_35是正定。 令ceres 流形优化 流形上的优化_ceres 流形优化_51为矩阵束ceres 流形优化 流形上的优化_特征值_61的广义特征值。 考虑广义瑞丽商(generalized Rayleigh quotient):
ceres 流形优化 流形上的优化_优化问题_77
其中,定义域为所有ceres 流形优化 流形上的优化_特征值_24的满秩矩阵。 则以下陈述等价:

  • ceres 流形优化 流形上的优化_ceres 流形优化_79是一个矩阵束ceres 流形优化 流形上的优化_优化问题_80极左不变子空间.
  • ceres 流形优化 流形上的优化_优化问题_81ceres 流形优化 流形上的优化_特征值_82的极小值解。
  • ceres 流形优化 流形上的优化_特征空间_83

证明:略。可参考我的博文《瑞丽熵的两种启发式证明》

ceres 流形优化 流形上的优化_特征值_84时,ceres 流形优化 流形上的优化_特征值_85退化为:
ceres 流形优化 流形上的优化_特征空间_86
其最小值解为:ceres 流形优化 流形上的优化_ceres 流形优化_87, ceres 流形优化 流形上的优化_优化问题_88为最小特征值对应的特征向量,ceres 流形优化 流形上的优化_优化问题_89ceres 流形优化 流形上的优化_特征值_90ceres 流形优化 流形上的优化_ceres 流形优化_91去掉零点。 即ceres 流形优化 流形上的优化_优化问题_92是任意非零标量。这一问题也被称为A的瑞丽商问题。 瑞丽商问题可以被看做是一个流形的优化问题。

不太令人放心的点是这个问题的解ceres 流形优化 流形上的优化_ceres 流形优化_87有许多个。 因此,一些重要的收敛性方法在这里并不容易使用。如牛顿法。

这并不仅仅只在瑞丽商问题下存在,事实上,对于任意齐次函数ceres 流形优化 流形上的优化_特征值_85, 也就是ceres 流形优化 流形上的优化_优化问题_95
都会有类似的问题存在。
一种解决的办法是限制ceres 流形优化 流形上的优化_特征值_85的定义域到ceres 流形优化 流形上的优化_特征值_90的子集ceres 流形优化 流形上的优化_特征值_98, 使得其中只含有一个或有限个极值解。一种简洁的选择是:
ceres 流形优化 流形上的优化_特征空间_99
即限域在单位球面上。限制问题的可行集让我们得到了分离的最小解。 同时我们失去了定义域的线性性质。 而这本书的目的就是提供一些工具,可以用来用数值化的方法求解非线性的流形上的问题, 来解决类似的问题

另一种方法, 更具有挑战性但更适合该问题,是工作在一个域上:ceres 流形优化 流形上的优化_优化问题_100, 且将该域的所有点视为一个点。 这样任何有效的信息没有丢失。 这个集合可以看做:

ceres 流形优化 流形上的优化_ceres 流形优化_101
,对于任何一个ceres 流形优化 流形上的优化_优化问题_102, 把ceres 流形优化 流形上的优化_优化问题_100看做一个点。 ceres 流形优化 流形上的优化_优化问题_104就是这些点的集合。 对于ceres 流形优化 流形上的优化_特征空间_105来说,有两个最小化瑞丽商的点: ceres 流形优化 流形上的优化_优化问题_88ceres 流形优化 流形上的优化_优化问题_107。 而对于ceres 流形优化 流形上的优化_特征值_98而言只有一个,即ceres 流形优化 流形上的优化_优化问题_109 (ceres 流形优化 流形上的优化_优化问题_88ceres 流形优化 流形上的优化_优化问题_107均属于ceres 流形优化 流形上的优化_优化问题_109)。第三章中会展示, ceres 流形优化 流形上的优化_优化问题_104被称为实投影空间,为“商流形”结构。后续章节会讲到能应用于这一结构下的数值化算法。 在一维(单特征向量)情形下, 球面空间和商空间在处理这一问题的效果等效。 然而, 当问题复杂到多维时, 商空间的方法引出了Grassmann流形,会是更好的选择。

优化框架的一些好处

我们将在整本书中说明,基于优化的特征值算法有许多可取的性质。

对于所有的基于优化框架的算法来说,一个重要的特性是,优化理论提供了坚实的框架以给出收敛性分析。 许多基于优化的特征算法展现了几乎全局收敛性。 这表明了这个方法面对任意的初始条件都能有很好的收敛性。

算法的收敛速度也是另一个性质。 基于梯度的算法往往是线性收敛,即连续迭代之间的误差收缩率渐进地以常数ceres 流形优化 流形上的优化_ceres 流形优化_114为界。相反的,牛顿法类似的下降算法往往拥有超线性收敛性, 即下降速度近似趋于0.

描述给定算法的全局行为和(局部)收敛速度是衡量算法性能的重要指标。
在大多数情况下,这种分析是优化框架的免费副产品.

研究问题

这个章节会简单地讲述一些计算问题, 可以通过基于流形的优化方法应对解决。
这些问题还处于一个初步的研究状态,读者们可以去参考一些参考文献。

奇异值问题

奇异值分解是一种非常有效的方法在数字计算中, 由于在诸如主成分分析(PCA)这样的降维问题时。

对于任意一个矩阵ceres 流形优化 流形上的优化_特征空间_115, 其奇异值分解可表示为:
ceres 流形优化 流形上的优化_特征值_116
其中ceres 流形优化 流形上的优化_优化问题_117ceres 流形优化 流形上的优化_特征空间_118均为酉阵, KaTeX parse error: Undefined control sequence: \Sigama at position 1: \̲S̲i̲g̲a̲m̲a̲是一个对角阵,且对角元素为:ceres 流形优化 流形上的优化_优化问题_119
矩阵ceres 流形优化 流形上的优化_特征值_02可以被表示为一组rank-1的矩阵之和:
ceres 流形优化 流形上的优化_优化问题_121

矩阵奇异值分解在许多问题中用到,一个常见的例子就是 对于 ceres 流形优化 流形上的优化_特征值_122的矩阵ceres 流形优化 流形上的优化_特征值_02的最佳低秩估计。 即:
ceres 流形优化 流形上的优化_特征空间_124
ceres 流形优化 流形上的优化_优化问题_125表示包含所有rank为ceres 流形优化 流形上的优化_优化问题_126ceres 流形优化 流形上的优化_特征值_122的矩阵的集合。 这个问题的最优解是
ceres 流形优化 流形上的优化_优化问题_128
这个结论也被称为Eckart-Young-Mirsky定理。 证明较为复杂,可参考维基。

奇异值问题与特征值问题非常相关。 对于下面的最大化问题:
ceres 流形优化 流形上的优化_特征值_129
限制: ceres 流形优化 流形上的优化_特征空间_130ceres 流形优化 流形上的优化_特征值_131。 那么,解为ceres 流形优化 流形上的优化_优化问题_117ceres 流形优化 流形上的优化_特征空间_118分别为ceres 流形优化 流形上的优化_特征值_02的最大的ceres 流形优化 流形上的优化_优化问题_126个奇异值所对应的左右奇异向量。 这其实是一个定义在流形上的优化问题, 即ceres 流形优化 流形上的优化_特征空间_136该限制条件刻画了一个ceres 流形优化 流形上的优化_ceres 流形优化_137的嵌入式子流形, 被称为Stiefel manifold。

矩阵近似问题

在矩阵近似框架如下:
ceres 流形优化 流形上的优化_ceres 流形优化_138
我们有如下一些问题。
如, 对称半正定的最小二乘问题
ceres 流形优化 流形上的优化_特征值_139.

这个问题也可以被改写为以满秩矩阵ceres 流形优化 流形上的优化_ceres 流形优化_27为变量的问题 (ceres 流形优化 流形上的优化_ceres 流形优化_141),:
ceres 流形优化 流形上的优化_特征空间_142
显然, ceres 流形优化 流形上的优化_ceres 流形优化_143成立,对于任意正交矩阵ceres 流形优化 流形上的优化_特征空间_144,也因此拥有非唯一解。 一种做法是类似于瑞丽商问题的方法,将之限制在一个商流形下,如定义ceres 流形优化 流形上的优化_特征空间_145为商空间的一个点。