按道理讲,这些东西应该熟记于心的。但是自己真心不喜欢记这种东西,看到一个总结不错的博客,转载过来以便于自己查看把!

1. 几种范数



矩阵 X∈Rm×n X∈Rm×n,σi(X) σi(X) 表示 X X 的第 i i 大奇异值(即 XX′ XX′ 的第 i i 大特征值的均方根){cite recht2010guaranteed}。r r 表示矩阵 X X 的秩(Rank),也等于 X X 非零奇异值的个数。对维度相同的两个矩阵 X X 和 Y Y,我们定义在 Rm×n Rm×n上的内积为




⟨X,Y⟩:=Tr(X′Y)=∑i=1m∑j=1nXijYij(1) 
   (1)⟨X,Y⟩:=Tr(X′Y)=∑i=1m∑j=1nXijYij



1. Frobenius范数

矩阵的Frobenius范数又称Hilbert-Schmidt范数,用 ∥⋅∥F ‖⋅‖F 表示。Frobenius范数也等于奇异值向量的Euclidean范数(或称 ℓ2 ℓ2 范数),基于内积(1) (1)来计算,即




∥X∥F:=⟨X,X⟩−−−−−−√=Tr(X′X)−−−−−−−√=(∑i=1m∑j=1nX2ij)12=(∑i=1rσi2)12(2) 
   (2)‖X‖F:=⟨X,X⟩=Tr(X′X)=(∑i=1m∑j=1nXij2)12=(∑i=1rσi2)12



2. 算子范数

矩阵的算子范数(operator norm)也称诱导2范数( induced 2-norm),等于最大奇异值(也就是奇异值向量的 ℓ∞ ℓ∞




∥X∥ :=σ1(X)(3) 
   (3)‖X‖ :=σ1(X)



3. 核范数

矩阵的核范数(nuclear norm)等于矩阵奇异值的和,即




∥X∥∗:=∑i=1rσi(X)(4) 
   (4)‖X‖∗:=∑i=1rσi(X)



核范数通常被称为其他一些名字,如Schatten的 1-norm,Ky Fan的 r-norm,或迹范数(trace class norm)。由于奇异值均非负,核范数等于奇异值向量的 ℓ1 ℓ1

对于任意秩不超过 r r 的矩阵 X X,以上三种范数满足以下不等式条件




∥X∥≤∥X∥F≤∥X∥∗≤r√∥X∥F≤r∥X∥(5) 
   (5)‖X‖≤‖X‖F≤‖X‖∗≤r‖X‖F≤r‖X‖



2. 对偶矩阵



对于内积空间上的任意范数∥⋅∥ ‖⋅‖,存在一个对偶范数(dual norm) ∥⋅∥d ‖⋅‖d,其定义如下:




∥X∥d:=maxY⟨X,Y⟩:∥Y∥≤q(6) 
   (6)‖X‖d:=maxY⟨X,Y⟩:‖Y‖≤q



特别地,对偶范数的对偶范数为原范数。

对于 Rn Rn 上的向量,ℓp ℓp 范数 1<p<∞ 1<p<∞ 的对偶范数为 ℓq ℓq 范数,p,q p,q 满足 1p+1q=1 1p+1q=1。类似地,ℓ∞ ℓ∞ 的对偶范数为 ℓ1 ℓ1。同样,我们可以推广到我们定义的矩阵范数。例如,Frobenius范数的对偶范数还是Frobenius范数,这可以简单的微积分(或Cauchy-Schwarz)来验证,因为




maxYTr(X′Y):Tr(Y′Y)≤1(7) 
   (7)maxYTr(X′Y):Tr(Y′Y)≤1



就等于 ∥X∥F ‖X‖F,且当 Y=X/∥X∥F Y=X/‖X‖F时取得最大值。类似地,算子范数的对偶范数是核范数(后面会具体说明)。

3. 秩和势函数的凸包络



凸包络(Convex envelope)的定义:给定一个凸集 C C,一个函数(可以为非凸的)f:C→R f:C→R 的凸包络为使得对所有 x∈C x∈C 均有 g(x)≤f(x) g(x)≤f(x) 的最大凸函数 g g 。凸包络的定义表明,在所有的凸函数中,g g 是对 f f 最佳的逐点近似。特别的,如果最优的 g g 可以方便的描述出来,函数 f f

由链式不等式 (5) (5)可以得到 对所有 X X 有 rank(X)≥∥X∥∗/∥X∥ rank(X)≥‖X‖∗/‖X‖。对所有 ∥X∥≤1 ‖X‖≤1,均有 rank(X)≥∥X∥∗ rank(X)≥‖X‖∗,因此在算子范数定义的单位球内,核范数是秩函数的较小的凸边界。事实上核范数也是其最紧致的凸边界,即:在集合 X∈Rm×n:∥X∥≤1 X∈Rm×n:‖X‖≤1 上,核范数 ∥X∥∗ ‖X‖∗ 是秩函数 rank(X) rank(X)




card(x)≥|x|1/|x|∞(8) 
   (8)card(x)≥|x|1/|x|∞



4. 秩的可加性



次可加性(subadditivity):如果从一个线性空间 S S 映射到 R R 的函数 f f 满足 f(x+y)≤f(x)+f(y) f(x+y)≤f(x)+f(y)。

可加性(additivity):如果从一个线性空间 S S 映射到 R R 的函数 f f 满足 f(x+y)=f(x)+f(y) f(x+y)=f(x)+f(y)。

对于向量来说,势函数和 ℓ1 ℓ1