矩阵的基本概念

假设 aij∈R, 其中 i=1,2,...,m; j=1,2,...,n. 我们定义如下的行列式:


A=⎡⎣⎢⎢⎢⎢a11a21⋮am1a12a22⋮am2⋯⋯⋯a1na2n⋮amn⎤⎦⎥⎥⎥⎥

是一个维数为 m×n 的实数矩阵。有时候我们会用如下的表达式来表示一个矩阵:

A=[aij],i=1,2,...,m;j=1,2,...,n

这表示一个m行n列的矩阵,下标的第一个数i表示行,第二个数j表示列。

列向量定义: 一个向量可以看成是只有一列的矩阵,所以,这里讨论的所有向量都默认为列向量。

符号定义: 矩阵用大写的粗体字母表示,比如矩阵A,B,X, 而向量用小写的粗体字母表示,比如向量a,b,x.

矩阵的转置: 矩阵A的转置为AT.

矩阵的逆: 如果一个矩阵A存在逆矩阵,则该逆矩阵表示为A−1.

矩阵的 determinant: 如果一个矩阵A是一个方阵,则它的determinant表示为|A|

单位矩阵表示为 I, 零矩阵空矩阵表示为0。

矩阵的迹: 如果一个矩阵是 n×n 的方阵,则该矩阵的迹(trace) 为 trA=∑ni=1aii, 等于所有主对角线元素之和,一个实数的迹是它本身,

矩阵的迹满足下列关系:

trAT=trAtrAB=trBAtrABC=trCAB=trBCA


矩阵的乘法

设 A 是一个 m×n 的矩阵,B 是一个 n×p的矩阵, 则两者的乘积AB 表示为:


C=AB

其中 C 是一个 m×p 的矩阵,C 中的任意一个元素 cij 表示为:

cij=∑k=1naikbkji=1,2,...,m;j=1,2,...,n

类似的,一个m×n 的矩阵 A 与一个n×1 的列向量 x相乘, 等于

z=Axzi=∑k=1naikxki=1,2,...,m

而一个m×1 的列向量 y 与一个m×n 的矩阵 A相乘,等于

zT=yTAzi=∑k=1makixki=1,2,...,n

因此,一个m×1 的列向量 y,一个m×n 的矩阵 A 以及一个n×1 的列向量 x, 他们的

乘积(是一个标量)可以表示为:

α=yTAxα=∑j=1m∑k=1najkyjxk

如果 A∈Rm×n, B∈Rn×p, 则满足以下关系:

C=ABcij=∑k=1naikbkjCT=BTATcji=∑k=1najkbki


矩阵的求导

假设有如下的函数:


y=Ψ(x)

其中 y∈Rm×1,x∈Rn×1, 则向量y关于x的导数,可以表示为:

∂y∂x=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢∂y1∂x1∂y2∂x1⋮∂ym∂x1∂y1∂x2∂y2∂x2⋮∂ym∂x2⋯⋯⋯∂y1∂xn∂y2∂xn⋮∂ym∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

这个 m×n 的矩阵,是向量y关于x的一阶偏导数,这个矩阵也称为Jacobian矩阵。如果x 是一个标量,则Jacobian矩阵

是一个m×1的矩阵,如果y是一个标量,则Jacobian矩阵是一个1×n的矩阵。\

已知,y∈Rm×1,x∈Rn×1, A∈Rm×n,

y=Axwe can get:∂y∂x=A

证明

yi=∑k=1naikxk⇒∂yi∂xj=aiji=1,2,...m,j=1,2,...n.⇒∂y∂x=A

如果 x 是关于 z 的函数

y=Axwe can get:∂y∂z=A∂x∂z

如果:α=yTAx 则:

∂α∂x=yTA∂α∂y=xTAT

如果:α=xTAx, x∈Rn×1, A∈Rn×n 则:

∂α∂x=xT(A+AT)

证明

α=xTAx=∑j=1n∑i=1naijxixj⇒∂α∂xk=∑j=1nakjxj+∑i=1naikxik=1,2,...n⇒∂α∂x=xTAT+xTA=xT(A+AT)

如果 A 是一个对称矩阵,那么 α=xTAx 对 x 的导数为,∂α∂x=2xTA。\

设 α=yTx, 其中 x 和 y 是关于 z 的函数。则

∂α∂z=xT∂y∂z+yT∂x∂z


参考文献

Andrew Ng, Machine Learning, Stanford University.
Randal J. Barnes, Matrix Differentiation, University of Minnesota, Minneapolis, USA
Dhrymes, Phoebus J., 1978, Mathematics for Econometrics, Springer-Verlag, New york, 136 PP.
Golub, Gene H., and Charles F. Van Loan, 1983, Matrix Computations, Johns Hopkins University Press, Baltimore, Maryland, 476 pp.
Graybill, Franklin A., 1983, Matrices with Applications in Statistics, 2nd Edition, Wadsworth Internationl Group, Belmont, California, 461 pp.