设 $A$ 为 $n$ 阶复矩阵, 则由 Jordan 标准型理论可知, 存在非异阵 $P$, 使得
$$P^{-1}AP=J=\mathrm{diag}\{J_{r_1}(\lambda_1),J_{r_2}(\lambda_2),\cdots,J_{r_k}(\lambda_k)\}$$
为 Jordan 标准型. 一般的, 通过计算特征矩阵 $\lambda I_n-A$ 的法式可得 $A$ 的初等因子组, 从而可写出 $A$ 的 Jordan 标准型 $J$. 然而, 过渡矩阵 $P$ 的计算通常比较复杂. 我们在高代白皮书第 7.7 节介绍了求过渡矩阵的三种方法, 本文将给出其中第三种方法“利用循环轨道求 Jordan 标准型的过渡矩阵”的严格证明. 关于循环轨道的理论, 读者可参考高代白皮书第 7.10 节第 2 部分 Jordan 标准型的几何意义.
我们先讨论 $A$ 是幂零阵的特殊情形, 然后再讨论一般的情形.
Part I 特殊情形
设 $A$ 是 $n$ 阶幂零阵, 其幂零指数为正整数 $k$, 即满足 $A^k=O$, $A^{k-1}\neq O$.
引理 1 假设同上, 则 $\dim(\mathrm{Ker}A\cap\mathrm{Im}A^i)=r(A^i)-r(A^{i+1})$, $1\leq i\leq k-1$.
证明 将 $A$ 看成是 $V=\mathbb{C}^n$ 上的线性变换, 下面考虑限制映射
$$A^i|_{\mathrm{Ker}A^{i+1}}:\mathrm{Ker}A^{i+1}\to\mathrm{Ker}A,\quad 1\leq i\leq k-1.$$
任取 $\alpha\in\mathrm{Ker}(A^i|_{\mathrm{Ker}A^{i+1}})$, 即 $\alpha\in\mathrm{Ker}A^{i+1}$ 且 $A^i\alpha=0$, 从而 $\alpha\in\mathrm{Ker}A^i$, 于是 $\mathrm{Ker}(A^i|_{\mathrm{Ker}A^{i+1}})=\mathrm{Ker}A^i$. 任取 $\alpha\in\mathrm{Ker}A^{i+1}$, 则显然 $A^i\alpha\in\mathrm{Ker}A\cap\mathrm{Im}A^i$. 反之, 任取 $\beta\in\mathrm{Ker}A\cap\mathrm{Im}A^i$, 则可设 $\beta=A^i\alpha$, 其中 $\alpha\in V$, 且 $0=A\beta=A^{i+1}\alpha$, 从而 $\alpha\in\mathrm{Ker}A^{i+1}$, 于是 $\mathrm{Im}(A^i|_{\mathrm{Ker}A^{i+1}})=\mathrm{Ker}A\cap\mathrm{Im}A^i$. 最后由线性映射的维数公式可得
$$\dim(\mathrm{Ker}A\cap\mathrm{Im}A^i)=\dim(\mathrm{Ker}A^{i+1})-\dim(\mathrm{Ker}A^i)=n-r(A^{i+1})-(n-r(A^i))=r(A^i)-r(A^{i+1}).\,\,\,\,\Box$$
注 事实上, 我们有 $\mathrm{Ker}A$ 的如下子空间升链:
$$0\subseteq \mathrm{Ker}A\cap\mathrm{Im}A^{k-1}\subseteq \mathrm{Ker}A\cap\mathrm{Im}A^{k-2}\subseteq \cdots\subseteq \mathrm{Ker}A\cap\mathrm{Im}A\subseteq \mathrm{Ker}A,$$
由引理 1 和高代白皮书例 7.52 的证明过程可知, 子空间 $\mathrm{Ker}A\cap\mathrm{Im}A^i$ 的维数 $r(A^i)-r(A^{i+1})$ 等于 $A$ 的 Jordan 标准型 $J$ 中特征值为零的阶数大于等于 $i+1$ 的 Jordan 块的个数. $\mathrm{Ker}A$ 的上述子空间升链是我们处理幂零矩阵情形的关键点.
以下设 $A$ 的 Jordan 标准型
$$J=\mathrm{diag}\{J_1(0),\cdots,J_1(0);J_2(0),\cdots,J_2(0);\cdots;J_k(0),\cdots,J_k(0)\},$$
其中 Jordan 块 $J_i(0)$ 有 $n_i$ 个 ($1\leq i\leq k$). 下面分 $k$ 步来构造上述 Jordan 块对应的循环轨道的循环向量.
(1) 由引理 1 可知 $\dim(\mathrm{Ker}A\cap\mathrm{Im}A^{k-1})=r(A^{k-1})-r(A^k)=r(A^{k-1})=n_k$, 故可从 $A^{k-1}$ 的 $n$ 个列向量中选取 $n_k$ 个线性无关的列向量 $A^{k-1}\xi^{(k-1)}_1,A^{k-1}\xi^{(k-1)}_2,\cdots,A^{k-1}\xi^{(k-1)}_{n_k}$, 使之成为 $\mathrm{Ker}A\cap\mathrm{Im}A^{k-1}$ 的一组基, 其中 $\xi^{(k-1)}_1,\xi^{(k-1)}_2,\cdots,\xi^{(k-1)}_{n_k}$ 可取为 $n$ 维标准单位列向量中的 $n_k$ 个.
(2) 由引理 1 可知 $\dim(\mathrm{Ker}A\cap\mathrm{Im}A^{k-2})=r(A^{k-2})-r(A^{k-1})=n_{k-1}+n_k$. 注意到 (1) 中 $n_k$ 个列向量已是 $\mathrm{Ker}A\cap\mathrm{Im}A^{k-2}$ 中线性无关的向量, 又 $\mathrm{Ker}A\cap\mathrm{Im}A^{k-2}$ 是线性映射 $A^{k-2}|_{\mathrm{Ker}A^{k-1}}:\mathrm{Ker}A^{k-1}\to\mathrm{Ker}A$ 的像空间, 故由基扩张定理可知, 存在 $\xi^{(k-2)}_1,\xi^{(k-2)}_2,\cdots,\xi^{(k-2)}_{n_{k-1}}\in\mathrm{Ker}A^{k-1}$, 使得 $A^{k-2}\xi^{(k-2)}_1,A^{k-2}\xi^{(k-2)}_2,\cdots,A^{k-2}\xi^{(k-2)}_{n_{k-1}}$; $A^{k-1}\xi^{(k-1)}_1,A^{k-1}\xi^{(k-1)}_2,\cdots,A^{k-1}\xi^{(k-1)}_{n_k}$ 成为 $\mathrm{Ker}A\cap\mathrm{Im}A^{k-2}$ 的一组基.
$\cdots\cdots\cdots\cdots$
(k-1) 由引理 1 可知 $\dim(\mathrm{Ker}A\cap\mathrm{Im}A)=r(A)-r(A^2)=n_2+\cdots+n_{k-1}+n_k$. 注意到前面构造的 $n_3+\cdots+n_k$ 个列向量已是 $\mathrm{Ker}A\cap\mathrm{Im}A$ 中线性无关的向量, 又 $\mathrm{Ker}A\cap\mathrm{Im}A$ 是线性映射 $A|_{\mathrm{Ker}A^2}:\mathrm{Ker}A^2\to\mathrm{Ker}A$ 的像空间, 故由基扩张定理可知, 存在 $\xi^{(1)}_1,\xi^{(1)}_2,\cdots,\xi^{(1)}_{n_2}\in\mathrm{Ker}A^2$, 使得 $A\xi^{(1)}_1,A\xi^{(1)}_2,\cdots,A\xi^{(1)}_{n_2}$; $A^2\xi^{(2)}_1,A^2\xi^{(2)}_2,\cdots,A^2\xi^{(2)}_{n_3}$; $\cdots$; $A^{k-1}\xi^{(k-1)}_1,A^{k-1}\xi^{(k-1)}_2,\cdots,A^{k-1}\xi^{(k-1)}_{n_k}$ 成为 $\mathrm{Ker}A\cap\mathrm{Im}A$ 的一组基.
(k) 注意到 $\dim\mathrm{Ker}A=n-r(A)=n_1+n_2+\cdots+n_k$ 以及前面构造的 $n_2+\cdots+n_k$ 个列向量已是 $\mathrm{Ker}A$ 中线性无关的向量, 故由基扩张定理可知, 存在 $\xi^{(0)}_1,\xi^{(0)}_2,\cdots,\xi^{(0)}_{n_1}\in\mathrm{Ker}A$, 使得 $\xi^{(0)}_1,\xi^{(0)}_2,\cdots,\xi^{(0)}_{n_1}$; $A\xi^{(1)}_1,A\xi^{(1)}_2,\cdots,A\xi^{(1)}_{n_2}$; $\cdots$; $A^{k-1}\xi^{(k-1)}_1,A^{k-1}\xi^{(k-1)}_2,\cdots,A^{k-1}\xi^{(k-1)}_{n_k}$ 成为 $\mathrm{Ker}A$ 的一组基.
定理 2 上述 $n_1+n_2+\cdots+n_k$ 个列向量 $\xi^{(i-1)}_j\,(1\leq i\leq k,\,1\leq j\leq n_i)$ 是 $A$ 的 Jordan 标准型 $J$ 的 Jordan 块对应的循环轨道的循环向量, 即 $A^l\xi^{(i-1)}_j\,(1\leq i\leq k,\,1\leq j\leq n_i,\,0\leq l\leq i-1)$ 构成了 $V=\mathbb{C}^n$ 的一组基. 令
$$P_{ij}=(A^{i-1}\xi^{(i-1)}_j,A^{i-2}\xi^{(i-1)}_j,\cdots,A\xi^{(i-1)}_j,\xi^{(i-1)}_j),\,\,1\leq i\leq k,\,1\leq j\leq n_i,$$
$$P=(P_{11},P_{12},\cdots,P_{1n_1};P_{21},P_{22},\cdots,P_{2n_2};\cdots;P_{k1},P_{k2},\cdots,P_{kn_k})$$
为上述基向量按列分块的方式拼成的非异阵, 则有
$$P^{-1}AP=J=\mathrm{diag}\{J_1(0),\cdots,J_1(0);J_2(0),\cdots,J_2(0);\cdots;J_k(0),\cdots,J_k(0)\}.$$
证明 注意到 $A^l\xi^{(i-1)}_j\,(1\leq i\leq k,\,1\leq j\leq n_i,\,0\leq l\leq i-1)$ 恰好是 $n$ 个列向量, 只要证它们线性无关, 则它们必为 $V$ 的一组基. 设 $c_{ijl}\,(1\leq i\leq k,\,1\leq j\leq n_i,\,0\leq l\leq i-1)$ 为复数, 使得
$$\sum_{i=1}^k\sum_{j=1}^{n_i}\sum_{l=0}^{i-1}c_{ijl}A^l\xi^{(i-1)}_j=0. \qquad(*)$$
由上述构造可知 $\xi^{(i-1)}_j\in\mathrm{Ker}A^i$, 于是 $A^p\xi^{(i-1)}_j=0\,(\forall\,p\geq i)$ 成立, 这一结论后面要反复使用. 下面分 $k$ 步来证明所有的系数都等于零.
(1) 将 $(*)$ 式左乘 $A^{k-1}$, 此时只剩下 $i=k$, $l=0$ 的项, 于是
$$\sum_{j=1}^{n_k}c_{kj0}A^{k-1}\xi^{(k-1)}_j=0.$$
再由构造的 (1) 可知 $c_{kj0}=0\,(1\leq j\leq n_k)$.
(2) 将 $(*)$ 式左乘 $A^{k-2}$, 此时只剩下 $i=k$, $l=1$ 和 $i=k-1$, $l=0$ 的项, 于是
$$\sum_{j=1}^{n_k}c_{kj1}A^{k-1}\xi^{(k-1)}_j+\sum_{j=1}^{n_{k-1}}c_{k-1,j,0}A^{k-2}\xi^{(k-2)}_j=0.$$
再由构造的 (2) 可知 $c_{kj1}=0\,(1\leq j\leq n_k)$, $c_{k-1,j,0}=0\,(1\leq j\leq n_{k-1})$.
$\cdots\cdots\cdots\cdots$
(k-1) 将 $(*)$ 式左乘 $A$, 此时只剩下 $i=k$, $l=k-2$ 和 $i=k-1$, $l=k-3$ 和 $\cdots$ 和 $i=2$, $l=0$ 的项, 于是
$$\sum_{j=1}^{n_k}c_{k,j,k-2}A^{k-1}\xi^{(k-1)}_j+\sum_{j=1}^{n_{k-1}}c_{k-1,j,k-3}A^{k-2}\xi^{(k-2)}_j+\cdots+\sum_{j=1}^{n_2}c_{2,j,0}A\xi^{(1)}_j=0.$$
再由构造的 (k-1) 可知 $c_{k,j,k-2}=0\,(1\leq j\leq n_k)$, $c_{k-1,j,k-3}=0\,(1\leq j\leq n_{k-1})$, $\cdots$, $c_{2,j,0}=0\,(1\leq j\leq n_2)$.
(k) 最后 $(*)$ 式变为
$$\sum_{j=1}^{n_k}c_{k,j,k-1}A^{k-1}\xi^{(k-1)}_j+\cdots+\sum_{j=1}^{n_2}c_{2,j,1}A\xi^{(1)}_j+\sum_{j=1}^{n_1}c_{1,j,0}\xi^{(0)}_j=0.$$
再由构造的 (k) 可知 $c_{k,j,k-1}=0\,(1\leq j\leq n_k)$, $\cdots$, $c_{2,j,1}=0\,(1\leq j\leq n_2)$, $c_{1,j,0}=0\,(1\leq j\leq n_1)$. $\Box$
定义 3 定理 2 中的基向量 $A^l\xi^{(i-1)}_j\,(1\leq i\leq k,\,1\leq j\leq n_i,\,0\leq l\leq i-1)$ 称为 $A$ 关于特征值零的 $i-1-l$ 级广义特征向量, 其中 $0$ 级广义特征向量就是 $A$ 关于特征值零的特征向量.
注 高代白皮书例 7.62 是定理 2 的一个特例. 当矩阵阶数较大或 Jordan 块较多时, 高代白皮书第 7.7 节第二种方法“合理选取特征向量以求出广义特征向量”需要大量的计算, 而定理 2 中构造循环向量的方法计算量相对较小.
对于幂零情形的计算, 读者可参考高代白皮书例 7.59, 例 7.60 和例 7.61 的解法 2.
Part II 一般情形
引理 4 设 $A$ 是 $n$ 阶复方阵, 其特征多项式 $f(\lambda)=(\lambda-\lambda_1)^{r_1}(\lambda-\lambda_2)^{r_2}\cdots(\lambda-\lambda_k)^{r_k}$, 其中 $\lambda_1,\lambda_2,\cdots,\lambda_k$ 是 $A$ 的全体不同特征值. 设特征值 $\lambda_i$ 的根子空间 $V_i=\mathrm{Ker}(A-\lambda_iI_n)^{r_i}$,
$$f_i(\lambda)=(\lambda-\lambda_1)^{r_1}\cdots(\lambda-\lambda_{i-1})^{r_{i-1}}(\lambda-\lambda_{i+1})^{r_{i+1}}\cdots(\lambda-\lambda_k)^{r_k},$$
则 $V=V_1\oplus V_2\oplus\cdots\oplus V_k$ 并且 $V_i=\mathrm{Im}f_i(A)$.
证明 第一个结论 (根子空间直和分解) 是高代白皮书例 7.87, 第二个结论是高代白皮书例 6.94. $\Box$
过渡矩阵的计算方法 假设与记号同引理 4, 设 $A_i=A-\lambda_i I_n$, 则 $A_i|_{V_i}$ 是 $V_i$ 上的幂零线性变换.
(1) 由幂零情形的讨论 (定理 2) 可得 $A_i|_{V_i}$ 在 $V_i$ 中的循环轨道的循环向量. 特别地, 第一步的循环向量可以从 $f_i(A)$ 的列向量中选取.
(2) 把这些循环向量生成 $V_i$ 的一组基, 再由根子空间直和分解拼成 $V$ 的一组基.
(3) 将 $V$ 的这组基按照列分块的方式拼成非异阵 $P$, 则 $P^{-1}AP=J$ 为 $A$ 的 Jordan 标准型.
对于一般情形的计算, 读者可参考高代白皮书例 7.63.