第一部分:矩阵的奇异值分解:

矩阵的奇异值分解证明过程中会用到五个定理,先作为补充知识展示这五个定理:

定理一:A是对称矩阵,则不同特征值对应的特征向量是正交的。

证明:设

gelu近似公式sigmoid_特征值


gelu近似公式sigmoid_gelu近似公式sigmoid_02

是矩阵A的特征向量,且

gelu近似公式sigmoid_特征向量_03


gelu近似公式sigmoid_奇异值分解_04


gelu近似公式sigmoid_特征向量_05


gelu近似公式sigmoid_特征值


gelu近似公式sigmoid_gelu近似公式sigmoid_02

对应的特征向量,即:

gelu近似公式sigmoid_gelu近似公式sigmoid_08


gelu近似公式sigmoid_奇异值分解_09

gelu近似公式sigmoid_奇异值分解_10


gelu近似公式sigmoid_特征向量_11

因为A是对称矩阵,则

gelu近似公式sigmoid_奇异值分解_12

所以,

gelu近似公式sigmoid_特征值_13

则:

gelu近似公式sigmoid_奇异值分解_14

因为

gelu近似公式sigmoid_特征向量_15


所以:

gelu近似公式sigmoid_gelu近似公式sigmoid_16

,即:

gelu近似公式sigmoid_奇异值分解_04


gelu近似公式sigmoid_特征向量_05

是正交的。证毕

————————————————————————————————————————————————————————————————————————————

定理二:矩阵

gelu近似公式sigmoid_特征值_19

和它的转置

gelu近似公式sigmoid_特征向量_20

具有相同的特征值

证明:因为:

gelu近似公式sigmoid_特征值_21

,即

gelu近似公式sigmoid_特征值_19


gelu近似公式sigmoid_特征向量_20

有相同的特征多项式,所以有相同的特征值。

————————————————————————————————————————————————————————————————————————————

定理三:半正定矩阵的特征值均大于等于零

证明:这是半正定矩阵的定义

————————————————————————————————————————————————————————————————————————————

定理四:

gelu近似公式sigmoid_特征值_19

满足

gelu近似公式sigmoid_特征值_25

,则称

gelu近似公式sigmoid_特征值_19

是单位正交矩阵单位正交矩阵有如下的性质:

gelu近似公式sigmoid_奇异值分解_27


————————————————————————————————————————————————————————————————————————————

定理五:若矩阵

gelu近似公式sigmoid_特征值_19

的秩为r,则

gelu近似公式sigmoid_gelu近似公式sigmoid_29


gelu近似公式sigmoid_特征值_30

秩均为r。

————————————————————————————————————————————————————————————————————————————

补充完以上五个定理,我们正式开始矩阵的奇异值分解的证明。

 

设矩阵

gelu近似公式sigmoid_gelu近似公式sigmoid_31

,矩阵的秩为gelu近似公式sigmoid_特征向量_32,且

gelu近似公式sigmoid_gelu近似公式sigmoid_33

,则矩阵可以分解为如下形式:

gelu近似公式sigmoid_奇异值分解_34


 

也可表示为:

gelu近似公式sigmoid_奇异值分解_35

证明:无非就是寻找

gelu近似公式sigmoid_特征向量_36

。显然

gelu近似公式sigmoid_奇异值分解_37


gelu近似公式sigmoid_特征值_38

,且这两个矩阵均是半正定矩阵,且互为转置,且根据定理五,这两个矩阵的秩均为gelu近似公式sigmoid_特征向量_32。根据定理二和定理三,这两个矩阵的特征值是相同的,且均大于等于零。我们只用大于零的特征值。设

gelu近似公式sigmoid_特征向量_40

(我们按从大到小排序即:

gelu近似公式sigmoid_gelu近似公式sigmoid_41

)是它们的不为零的特征值,且对于矩阵

gelu近似公式sigmoid_gelu近似公式sigmoid_42

对应的单位特征向量为

gelu近似公式sigmoid_gelu近似公式sigmoid_43


gelu近似公式sigmoid_gelu近似公式sigmoid_44

),对于矩阵

gelu近似公式sigmoid_特征值_45

对应的单位特征向量为

gelu近似公式sigmoid_奇异值分解_46


gelu近似公式sigmoid_特征向量_47

),即

gelu近似公式sigmoid_gelu近似公式sigmoid_48


gelu近似公式sigmoid_奇异值分解_49

。其实

gelu近似公式sigmoid_gelu近似公式sigmoid_43


gelu近似公式sigmoid_奇异值分解_46

存在一定的关系,下面就找出这种关系。

因为

gelu近似公式sigmoid_特征值_52

,所以,

gelu近似公式sigmoid_gelu近似公式sigmoid_53


gelu近似公式sigmoid_特征值_45

的特征向量,又因为

gelu近似公式sigmoid_奇异值分解_46

也是

gelu近似公式sigmoid_特征值_45

的特征向量,所以,

gelu近似公式sigmoid_特征向量_57


又因为

gelu近似公式sigmoid_特征向量_47


所以:

gelu近似公式sigmoid_特征值_59


则:

gelu近似公式sigmoid_特征值_60

,

所以,

gelu近似公式sigmoid_gelu近似公式sigmoid_61


那么

gelu近似公式sigmoid_奇异值分解_62

下面证明

gelu近似公式sigmoid_特征向量_63

,其中

gelu近似公式sigmoid_特征值_64

代表单位矩阵。因为

gelu近似公式sigmoid_奇异值分解_65

是对称矩阵

gelu近似公式sigmoid_gelu近似公式sigmoid_66

的不同特征值对应的特征向量,根据定理一,我们得出他们是相互正交的,又因为

gelu近似公式sigmoid_特征值_67


然后,然后根据定理四,我们便得到

gelu近似公式sigmoid_gelu近似公式sigmoid_68

所以:

gelu近似公式sigmoid_特征值_69


证毕。

 

矩阵的奇异值分解定理:

设矩阵

gelu近似公式sigmoid_奇异值分解_70

,秩为

gelu近似公式sigmoid_特征值_71


gelu近似公式sigmoid_特征向量_72

,则该矩阵可以分解为:

gelu近似公式sigmoid_特征值_73

也可以表示为:

gelu近似公式sigmoid_奇异值分解_74

。其中:

gelu近似公式sigmoid_特征向量_75

为矩阵

gelu近似公式sigmoid_gelu近似公式sigmoid_76

(或者

gelu近似公式sigmoid_奇异值分解_77

)的非零向量,

gelu近似公式sigmoid_特征向量_78


gelu近似公式sigmoid_gelu近似公式sigmoid_76

的对应特征向量,

gelu近似公式sigmoid_特征向量_80


gelu近似公式sigmoid_奇异值分解_77

的对应特征向量,

gelu近似公式sigmoid_gelu近似公式sigmoid_82



SVD的第一个作用之低秩近似(Low Rank Approximation):

gelu近似公式sigmoid_特征值_83


gelu近似公式sigmoid_gelu近似公式sigmoid_84

,即用矩阵

gelu近似公式sigmoid_gelu近似公式sigmoid_85

近似

gelu近似公式sigmoid_特征值_86


 

SVD的第二个作用之特征降维(Dimensionality Reduction):

假设特征是按列存储的,即:

gelu近似公式sigmoid_特征值_87

,其中

gelu近似公式sigmoid_奇异值分解_88


gelu近似公式sigmoid_特征值_89

。我们在低秩近似中已经用

gelu近似公式sigmoid_gelu近似公式sigmoid_85

近似表示

gelu近似公式sigmoid_特征值_86

了。

gelu近似公式sigmoid_特征值_92

则根据分块矩阵的乘法,我们很容易得到:

gelu近似公式sigmoid_特征向量_93


gelu近似公式sigmoid_特征值_89


令:

gelu近似公式sigmoid_特征向量_95

。因为

gelu近似公式sigmoid_特征向量_96

,是相互正交的,所以根据

gelu近似公式sigmoid_特征向量_93

,显然可以得出

gelu近似公式sigmoid_奇异值分解_88

,可以近似由

gelu近似公式sigmoid_特征向量_96

,张成,所以我们得出结论:

m维的

gelu近似公式sigmoid_特征向量_100

,可以降到

gelu近似公式sigmoid_特征值_101

维的

gelu近似公式sigmoid_特征向量_102

gelu近似公式sigmoid_特征值_89