1. 矩阵基础
1.1 将矩阵视为数字的数组
矩阵(Matrix)是数组的矩形数组,形式为
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] \bm{A}=
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{bmatrix}
A = a 11 a 21 ⋮ a m 1 a 12 a 22 ⋮ a m 2 ⋯ ⋯ ⋱ ⋯ a 1 n a 2 n ⋮ a mn
这个矩阵有m m m 行(rows)n n n 列(columns),若是元素为实数,我们可以说A ∈ R m , n \bm{A} \in \mathbb{R}^{m,n} A ∈ R m , n ;若是元素为复数,我们可以说A ∈ C m , n \bm{A} \in \mathbb{C}^{m,n} A ∈ C m , n 。矩阵的每一行都是行向量,每一列都是列向量。矩阵的转置(transposition)操作是将矩阵的行列交换
[ A ⊤ ] i j = [ A ] j i [\bm{A}^\top]_{ij} = [\bm{A}]_{ji}
[ A ⊤ ] ij = [ A ] ji
符号[ A ] i j [\bm{A}]_{ij} [ A ] ij (有时候简写为A i j \bm{A}_{ij} A ij )代表矩阵第i i i 行j j j 列的元素。R m , n \mathbb{R}^{m,n} R m , n 中的零矩阵表示为0 m , n \bm{0}_{m,n} 0 m , n ,或者直接简写为0 \bm{0} 0
矩阵的数乘(multiplication by a scalar)被定义为矩阵中的每个元素都与标量相乘;矩阵的加法(两个矩阵大小相同)被定义为矩阵对应位置的元素相加。定义了这些运算后,我们可以将R m , n \mathbb{R}^{m,n} R m , n 看作一个向量空间
1.2 矩阵乘积
如果两个矩阵的尺寸符合,他们才可以相乘。i.e. A ∈ R m , n , B ∈ R n , p \bm{A} \in \mathbb{R}^{m,n}, \bm{B} \in \mathbb{R}^{n,p} A ∈ R m , n , B ∈ R n , p ,矩阵的乘法A B ∈ R m , p \bm{AB} \in \mathbb{R}^{m,p} AB ∈ R m , p 被定义为
[ A B ] i j = ∑ k = 1 n A i k B k j [\bm{AB}]_{ij} = \sum^n_{k=1}\bm{A}_{ik}\bm{B}_{kj}
[ AB ] ij = k = 1 ∑ n A ik B kj
矩阵乘法是非交换的(non-commutative),这意味着一般情况下A B ≠ B A \bm{AB} \neq \bm{BA} AB = BA
n × n n \times n n × n 单位矩阵(identity matrix)表达为I n \bm{I}_n I n (也可以简写为I \bm{I} I ),它是对角(diagonal)元素为1 1 1 其他元素为0 0 0 的矩阵。单位矩阵满足A I n = A \bm{AI}_n=\bm{A} AI n = A ,A \bm{A} A 有n n n 行;I n B = B \bm{I}_n\bm{B}=\bm{B} I n B = B ,B \bm{B} B 有n n n 列
矩阵可以看成一组行向量的组合,也可以看成一组列向量的组合
A = [ a 1 a 2 ⋯ a n ] , or A = [ α 1 ⊤ α 2 ⊤ ⋮ α m ⊤ ] \bm{A} = [ \bm{a}_1 \quad \bm{a}_2 \quad \cdots \quad \bm{a}_n ],\text{or }
\bm{A} = \left[
\begin{array}{c}
\bm{\alpha}_{1}^\top \\
\bm{\alpha}_{2}^\top \\
\vdots \\
\bm{\alpha}_{m}^\top
\end{array}
\right]
A = [ a 1 a 2 ⋯ a n ] , or A = α 1 ⊤ α 2 ⊤ ⋮ α m ⊤
其中a 1 , ⋯ , a n ∈ R m \bm{a}_1,\cdots,\bm{a}_n \in \mathbb{R}^m a 1 , ⋯ , a n ∈ R m 表示A \bm{A} A 的列,即列向量 ;α 1 ⊤ , ⋯ , α n ⊤ ∈ R n \bm{\alpha}_1^\top,\cdots,\bm{\alpha}_n^\top \in \mathbb{R}^n α 1 ⊤ , ⋯ , α n ⊤ ∈ R n 表示A \bm{A} A 的行,即行向量
因此矩阵乘积可以写为
A B = A [ b 1 ⋯ b p ] = [ A b 1 ⋯ A b p ] \bm{AB} = \bm{A}
[ \bm{b}_1 \quad \cdots \quad \bm{b}_p ] = [ \bm{Ab}_1 \quad \cdots \quad \bm{Ab}_p ]
AB = A [ b 1 ⋯ b p ] = [ Ab 1 ⋯ Ab p ]
A B = [ α 1 ⊤ ⋮ α m ⊤ ] B = [ α 1 ⊤ B ⋮ α m ⊤ B ] \bm{AB} = \left[
\begin{array}{c}
\bm{\alpha}_{1}^\top \\
\vdots \\
\bm{\alpha}_{m}^\top
\end{array}
\right] \bm{B} = \left[
\begin{array}{c}
\bm{\alpha}_{1}^\top \bm{B}\\
\vdots \\
\bm{\alpha}_{m}^\top\bm{B}
\end{array}
\right]
AB = α 1 ⊤ ⋮ α m ⊤ B = α 1 ⊤ B ⋮ α m ⊤ B
最终矩阵的乘积可以看成多个并矢的和(参考4.7节 )
A B = ∑ i = 1 n a i β i ⊤ \bm{AB} = \sum_{i=1}^n \bm{a}_i \bm{\beta}_i^\top
AB = i = 1 ∑ n a i β i ⊤
矩阵的乘积定义同样使用矩阵与向量的乘积
A b = ∑ k = 1 n a k b k \bm{Ab} = \sum_{k=1}^n \bm{a}_k b_k
Ab = k = 1 ∑ n a k b k
A b \bm{Ab} Ab 的结果是一个向量,可以看成是对矩阵A \bm{A} A 中的列向量进行线性组合,系数为b \bm{b} b 中的元素。同样地,我们可以定义向量左乘矩阵
c ⊤ A = ∑ k = 1 m c k α k ⊤ \bm{c}^\top \bm{A} = \sum_{k=1}^m c_k \bm{\alpha}_k^\top
c ⊤ A = k = 1 ∑ m c k α k ⊤
定义C = A B \bm{C}=\bm{AB} C = AB ,根据矩阵与向量乘积的定义,C = [ A b 1 ⋯ A b p ] \bm{C}=[\bm{Ab}_1 \quad \cdots \quad \bm{Ab}_p] C = [ Ab 1 ⋯ Ab p ] 可以进一步拆分
C = [ A b 1 ⋯ A b p ] = [ ∑ k = 1 n a k b 1 k ⋯ ∑ k = 1 n a k b p k ] \bm{C}=[\bm{Ab}_1 \quad \cdots \quad \bm{Ab}_p] = [ \sum_{k=1}^n \bm{a}_k b_{1k} \quad \cdots \quad \sum_{k=1}^n \bm{a}_k b_{pk}]
C = [ Ab 1 ⋯ Ab p ] = [ k = 1 ∑ n a k b 1 k ⋯ k = 1 ∑ n a k b p k ]
其中b i j b_{ij} b ij 为向量b i \bm{b}_i b i 的第j j j 个元素,因此矩阵C \bm{C} C 的每一列都可以看成是对A \bm{A} A 的列向量进行线性组合得到的 。同样地,C = [ α 1 ⊤ B ⋯ α m ⊤ B ] ⊤ \bm{C}=[\bm{\alpha}_{1}^\top \bm{B} \quad \cdots \quad \bm{\alpha}_{m}^\top\bm{B} ]^\top C = [ α 1 ⊤ B ⋯ α m ⊤ B ] ⊤ 可以进一步拆分
C = [ α 1 ⊤ B ⋮ α m ⊤ B ] = [ ∑ k = 1 m α 1 k β k ⊤ ⋮ ∑ k = 1 m α m k β k ⊤ ] \bm{C} = \left[
\begin{array}{c}
\bm{\alpha}_{1}^\top \bm{B}\\
\vdots \\
\bm{\alpha}_{m}^\top\bm{B}
\end{array}
\right] = \left[
\begin{array}{c}
\sum_{k=1}^m \alpha_{1k} \bm{\beta}_k^\top\\
\vdots \\
\sum_{k=1}^m \alpha_{mk} \bm{\beta}_k^\top
\end{array}
\right]
C = α 1 ⊤ B ⋮ α m ⊤ B = ∑ k = 1 m α 1 k β k ⊤ ⋮ ∑ k = 1 m α mk β k ⊤
其中α i j \alpha_{ij} α ij 为向量α i ⊤ \bm{\alpha}_{i}^\top α i ⊤ 的第j j j 个元素,因此矩阵C \bm{C} C 的每一行都可以看成是对B \bm{B} B 的行向量进行线性组合得到的 。
矩阵乘积的转置满足
( A 1 A 2 ⋯ A p ) ⊤ = A p ⊤ ⋯ A 2 ⊤ A 1 ⊤ ( \bm{A}_1 \bm{A}_2 \cdots \bm{A}_p )^\top = \bm{A}_p^\top \cdots \bm{A}_2^\top \bm{A}_1^\top
( A 1 A 2 ⋯ A p ) ⊤ = A p ⊤ ⋯ A 2 ⊤ A 1 ⊤
1.3 块矩阵乘积
只要保证块(block)大小一致,矩阵代数可以推广到块。首先考虑矩阵A \bm{A} A 与向量x \bm{x} x 的乘积,其中矩阵和向量都是分块的
A = [ A 1 A 2 ] , x = [ x 1 x 2 ] A x = A 1 x 1 + A 2 x 2 \begin{gather*}
\bm{A} = [ \bm{A}_1 \quad \bm{A}_2 ],\bm{x} = \left[
\begin{array}{c}
\bm{x}_1 \\
\bm{x}_2
\end{array}
\right] \\
\bm{Ax}= \bm{A}_1\bm{x}_1 + \bm{A}_2\bm{x}_2
\end{gather*}
A = [ A 1 A 2 ] , x = [ x 1 x 2 ] Ax = A 1 x 1 + A 2 x 2
从符号上看这就像是行向量与列向量的内积。矩阵与矩阵相乘也可以进行类似展开
A B = [ A 1 A 2 ] [ B 1 B 2 ] = A 1 B 1 + A 2 B 2 \bm{AB} = [ \bm{A}_1 \quad \bm{A}_2] \left[
\begin{array}{c}
\bm{B}_1 \\
\bm{B}_2
\end{array}
\right] = \bm{A}_1\bm{B}_1 + \bm{A}_2\bm{B}_2
AB = [ A 1 A 2 ] [ B 1 B 2 ] = A 1 B 1 + A 2 B 2
1.4 矩阵空间和内积
对于向量空间R m , n \mathbb{R}^{m,n} R m , n ,可以赋予一个标准内积
⟨ A , B ⟩ = trace ( A ⊤ B ) \langle \bm{A},\bm{B} \rangle = \operatorname{trace} ( \bm{A}^\top \bm{B} )
⟨ A , B ⟩ = trace ( A ⊤ B )
其中trace ( X ) \operatorname{trace}(\bm{X}) trace ( X ) 是方阵的迹(trace),定义为方阵主对角线上元素的和。这个内积引出了所谓的Frobenius范数
⟨ A , A ⟩ = trace A A ⊤ = ∥ A ∥ F ≔ ∑ i j a i j 2 \sqrt{ \langle \bm{A} , \bm{A} \rangle} = \sqrt{ \operatorname{trace}\bm{AA}^\top} = \lVert\bm{A}\rVert_F \coloneqq \sqrt{\sum_{ij} a_{ij}^2}
⟨ A , A ⟩ = trace AA ⊤ = ∥ A ∥ F : = ij ∑ a ij 2
我们的选择与向量情况下的选择是一致的。实际上,上述内积表示的是通过将矩阵A , B \bm{A},\bm{B} A , B 的所有列依次首尾相连展开得到的两个向量之间的标量积;因此,Frobenius范数就是矩阵向量化形式的欧几里得范数。
迹运算符是一个线性运算符,同时还有许多性质
trace A = trace A ⊤ trace A B = trace B A \begin{gather*}
\operatorname{trace} \bm{A} = \operatorname{trace} \bm{A}^\top \\
\operatorname{trace} \bm{AB} = \operatorname{trace} \bm{BA}
\end{gather*}
trace A = trace A ⊤ trace AB = trace BA
2. 矩阵和线性映射
2.1 矩阵,线性和仿射映射
我们可以将矩阵解释为从输入空间到输出空间的作用的线性映射(向量值函数,即输出为向量)或者操作。我们回顾一下线性映射:当任意点x , z ∈ X \bm{x},\bm{z} \in \mathcal{X} x , z ∈ X 和任意标量λ , μ ∈ Y \lambda,\mu \in \mathcal{Y} λ , μ ∈ Y 满足f ( λ x + μ z ) = λ f ( x ) + μ f ( z ) f( \lambda \bm{x} + \mu \bm{z} ) = \lambda f(\bm{x}) + \mu f(\bm{z}) f ( λ x + μ z ) = λ f ( x ) + μ f ( z ) 那么映射f : X → Y f:\mathcal{X}\rightarrow \mathcal{Y} f : X → Y 为线性。任意线性映射f : R n → R m f:\mathbb{R}^n\rightarrow \mathbb{R}^m f : R n → R m 都可以用一个矩阵A ∈ R m , n \bm{A}\in\mathbb{R}^{m,n} A ∈ R m , n 表示
放射映射就是简单地在线性方程上加一个常数项,因此任意放射映射f : R n → R m f:\mathbb{R}^n\rightarrow \mathbb{R}^m f : R n → R m 都可以表示为
f ( x ) = A x + b f( \bm{x} ) = \bm{A}\bm{x} + \bm{b}
f ( x ) = A x + b
其中A ∈ R m , n , b ∈ R m \bm{A} \in \mathbb{R}^{m,n},\bm{b} \in \mathbb{R}^{m} A ∈ R m , n , b ∈ R m
将向量的每个元素按某个标量因子 进行缩放的线性映射,可以用对角矩阵来描述
2.2 非线性方程的近似
一个非线性映射(在该点可微)在给定点x 0 \bm{x}_0 x 0 的邻域内(neighborhood)可以被近似为一个仿射映射
f ( x ) = f ( x 0 ) + J f ( x 0 ) ( x − x 0 + o ( ∥ x − x 0 ∥ ) ) f ( \bm{x} ) = f ( \bm{x}_0 ) + J_f ( \bm{x}_0 ) ( \bm{x}-\bm{x}_0 + o ( \lVert \bm{x} - \bm{x}_0 \rVert ) )
f ( x ) = f ( x 0 ) + J f ( x 0 ) ( x − x 0 + o (∥ x − x 0 ∥))
当x → x 0 \bm{x} \rightarrow \bm{x}_0 x → x 0 时o ( ∥ x − x 0 ∥ ) o ( \lVert \bm{x} - \bm{x}_0 \rVert ) o (∥ x − x 0 ∥) 比一阶(first order)收敛更快,J f J_f J f 是雅可比矩阵,定义为
J f ( x 0 ) ≔ [ ∂ f 1 ∂ x 1 ⋯ ∂ f 1 ∂ x n ⋮ ⋱ ⋮ ∂ f m ∂ x 1 ⋯ ∂ f m ∂ x n ] x = x 0 J_f ( \bm{x}_0 ) \coloneqq
\begin{bmatrix}
\frac{\partial f_1 }{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\
\vdots & \ddots & \vdots \\
\frac{\partial f_m }{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n}
\end{bmatrix}_{ \bm{x} = \bm{x}_0 }
J f ( x 0 ) : = ∂ x 1 ∂ f 1 ⋮ ∂ x 1 ∂ f m ⋯ ⋱ ⋯ ∂ x n ∂ f 1 ⋮ ∂ x n ∂ f m x = x 0
因此对于接近x 0 \bm{x}_0 x 0 的x \bm{x} x ,变分δ f ( x ) ≔ f ( x ) − f ( x 0 ) \delta_f ( \bm{x} ) \coloneqq f ( \bm{x} ) - f ( \bm{x}_0 ) δ f ( x ) : = f ( x ) − f ( x 0 ) 可以用雅可比矩阵定义的线性映射来一阶近似
一个在x 0 \bm{x}_0 x 0 处二阶可微的标量值函数(即输出为标量)可以使用梯度和二阶导数矩阵(海森矩阵)进行二阶局部近似
f ≈ f ( x 0 ) + Δ f ( x 0 ) ⊤ ( x − x 0 ) + 1 2 ( x − x 0 ) ⊤ Δ 2 f ( x 0 ) ( x − x 0 ) f \approx f ( \bm{x}_0 ) + \Delta f ( \bm{x}_0 )^\top ( \bm{x} -\bm{x}_0 ) + \frac{1}{2} ( \bm{x} -\bm{x}_0 )^\top \Delta^2 f ( \bm{x}_0 ) ( \bm{x} -\bm{x}_0 )
f ≈ f ( x 0 ) + Δ f ( x 0 ) ⊤ ( x − x 0 ) + 2 1 ( x − x 0 ) ⊤ Δ 2 f ( x 0 ) ( x − x 0 )
其中Δ 2 f ( x 0 ) \Delta^2 f ( \bm{x}_0 ) Δ 2 f ( x 0 ) 是海森矩阵(Hessian)定义为
Δ 2 f ( x 0 ) ≔ [ ∂ 2 f ∂ x 1 2 ⋯ ∂ 2 f ∂ x 1 ∂ x n ⋮ ⋱ ⋮ ∂ 2 f ∂ x n ∂ x 1 ⋯ ∂ 2 f ∂ x n 2 ] x = x 0 \Delta^2 f ( \bm{x}_0 ) \coloneqq
\begin{bmatrix}
\frac{\partial ^2 f}{\partial x_1^2} & \cdots & \frac{\partial ^2 f}{\partial x_1 \partial x_n} \\
\vdots & \ddots & \vdots \\
\frac{\partial ^2 f}{\partial x_n \partial x_1} & \cdots & \frac{\partial ^2 f}{\partial x_n^2}
\end{bmatrix}_{\bm{x}= \bm{x}_0}
Δ 2 f ( x 0 ) : = ∂ x 1 2 ∂ 2 f ⋮ ∂ x n ∂ x 1 ∂ 2 f ⋯ ⋱ ⋯ ∂ x 1 ∂ x n ∂ 2 f ⋮ ∂ x n 2 ∂ 2 f x = x 0
在这种情况下,f f f 在局部通过由Hessian矩阵定义的二次函数进行近似
2.3 值域,秩和零空间
考虑一个矩阵A \bm{A} A 对它的列向量进行线性组合,得到的集合称为A \bm{A} A 的值域(range)或者为列空间,被写为R ( A ) \mathcal{R} ( \bm{A} ) R ( A )
R ( A ) = { A x ∣ x ∈ R n } \mathcal{R} ( \bm{A} ) = \{ \bm{A} \bm{x} \mid \bm{x} \in \mathbb{R}^n \}
R ( A ) = { A x ∣ x ∈ R n }
列空间是一个子空间。R ( A ) \mathcal{R} ( \bm{A} ) R ( A ) 的维数称为A \bm{A} A 的秩(rank),记作rank ( A ) \operatorname{rank}( \bm{A} ) rank ( A ) 根据定义,秩表示A \bm{A} A 线性无关的列数量,根据证明秩也等于线性无关的行数量。因此矩阵的秩等于它转置的秩
rank ( A ) = rank ( A ⊤ ) \operatorname{rank} ( \bm{A} ) = \operatorname{rank} ( \bm{A}^\top )
rank ( A ) = rank ( A ⊤ )
证明
假设A ∈ R m , n \bm{A} \in \mathbb{R}^{m,n} A ∈ R m , n 的列秩为c c c ,行秩为r r r ,尝试将它拆分为B C \bm{BC} BC 两个矩阵,其中B \bm{B} B 矩阵由A \bm{A} A 中线性独立的列向量组成,因为A \bm{A} A 的每一列都可以通过B \bm{B} B 中的列向量线性组合得到,根据矩阵乘积的定义得知拆分是合理的。此时B ∈ R m , c , C ∈ R c , n \bm{B}\in\mathbb{R}^{m,c},\bm{C}\in\mathbb{R}^{c,n} B ∈ R m , c , C ∈ R c , n 。同时A \bm{A} A 的每一行都可以看成由C \bm{C} C 矩阵中的行向量线性组合得到的,因此A \bm{A} A 的行空间维数不大于C \bm{C} C 的行数,i.e. r ≤ c r \leq c r ≤ c
用同样的方式对A \bm{A} A 的转置进行推导,可以得到A \bm{A} A 转置的行空间维数c c c 不大于列空间维数r r r ,i.e. c ≤ r c \leq r c ≤ r 。将两个结论对比只能取r = c r=c r = c 。行秩等于列秩得到了证明
因此我们可以提出一个约束
0 ≤ rank ( A ) ≤ min ( m , n ) 0 \leq \operatorname{rank} ( \bm{A} ) \leq \min ( m,n )
0 ≤ rank ( A ) ≤ min ( m , n )
矩阵A \bm{A} A 的零空间(nullspace)是输入空间中被映射到0 \bm{0} 0 的向量组成的集合,记作N ( A ) \mathcal{N} ( \bm{A} ) N ( A )
N ( A ) = { x ∣ A x = 0 } \mathcal{N} ( \bm{A} ) = \{ \bm{x} \mid \bm{A} \bm{x} = \bm{0} \}
N ( A ) = { x ∣ A x = 0 }
零空间也是一个子空间
2.4 线性代数的基本理论
线性代数基本定理建立了矩阵的零空间与其转置的值域之间的重要联系。首先我们可以发现A ⊤ \bm{A}^\top A ⊤ 值域中的任意向量都和A \bm{A} A 零空间的任意向量正交,i.e. x ⊤ z = 0 , ∀ x ∈ R ( A ⊤ ) , ∀ z ∈ N ( A ) \bm{x}^\top \bm{z} = 0,\forall \bm{x} \in \mathcal{R} ( \bm{A}^\top ), \forall \bm{z}\in \mathcal{N} ( \bm{A} ) x ⊤ z = 0 , ∀ x ∈ R ( A ⊤ ) , ∀ z ∈ N ( A ) 。根据值域的定义,R ( A ⊤ ) \mathcal{R} ( \bm{A}^\top ) R ( A ⊤ ) 中的所有向量都可以写为A \bm{A} A 中的行向量的线性组合,因此
x ⊤ z = ( A ⊤ y ) ⊤ z = y ⊤ A z = y ⊤ ( A z ) = 0 \bm{x}^\top \bm{z} = ( \bm{A}^\top \bm{y} )^\top \bm{z} = \bm{y}^\top \bm{A} \bm{z} = \bm{y}^\top (\bm{A} \bm{z}) = 0
x ⊤ z = ( A ⊤ y ) ⊤ z = y ⊤ A z = y ⊤ ( A z ) = 0
因此R ( A ⊤ ) \mathcal{R} ( \bm{A}^\top ) R ( A ⊤ ) 和N ( A ) \mathcal{N} ( \bm{A} ) N ( A ) 是正交子空间,i.e. N ( A ) ⊥ R ( A ⊤ ) \mathcal{N}(\bm{A}) \perp \mathcal{R}(\bm{A}^\top) N ( A ) ⊥ R ( A ⊤ ) 或者写为N ( A ) = R ( A ⊤ ) ⊥ \mathcal{N}(\bm{A}) = \mathcal{R}(\bm{A}^\top)^\perp N ( A ) = R ( A ⊤ ) ⊥ 。回顾Section 2.2.3,子空间和其正交补的直和等于整个空间
R n = N ( A ) ⊕ N ( A ) ⊥ = N ( A ) ⊕ R ( A ⊤ ) \mathbb{R}^n = \mathcal{N}(\bm{A}) \oplus \mathcal{N}(\bm{A})^\perp = \mathcal{N}(\bm{A}) \oplus \mathcal{R}(\bm{A}^\top)
R n = N ( A ) ⊕ N ( A ) ⊥ = N ( A ) ⊕ R ( A ⊤ )
同样的我们可以证明z ⊤ x = 0 , ∀ x ∈ R ( A ) , ∀ z ∈ N ( A ⊤ ) \bm{z}^\top \bm{x} = 0,\forall \bm{x} \in \mathcal{R} (\bm{A}), \forall \bm{z}\in \mathcal{N} (\bm{A}^\top) z ⊤ x = 0 , ∀ x ∈ R ( A ) , ∀ z ∈ N ( A ⊤ ) ,因此N ( A ⊤ ) ⊥ R ( A ) \mathcal{N}(\bm{A}^\top) \perp \mathcal{R}(\bm{A}) N ( A ⊤ ) ⊥ R ( A ) ,输出空间可以分解为
R m = R ( A ) ⊕ R ( A ) ⊥ = R ( A ) ⊕ N ( A ⊤ ) \mathbb{R}^m = \mathcal{R}(\bm{A}) \oplus \mathcal{R}(\bm{A})^\perp = \mathcal{R}(\bm{A}) \oplus \mathcal{N}(\bm{A}^\top)
R m = R ( A ) ⊕ R ( A ) ⊥ = R ( A ) ⊕ N ( A ⊤ )
定理3.1(线性代数基本定理) :对于任意矩阵A ∈ R m , n \bm{A} \in \mathbb{R}^{m,n} A ∈ R m , n ,有N ( A ⊤ ) ⊥ R ( A ) , N ( A ) ⊥ R ( A ⊤ ) \mathcal{N}(\bm{A}^\top) \perp \mathcal{R}(\bm{A}),\mathcal{N}(\bm{A}) \perp \mathcal{R}(\bm{A}^\top) N ( A ⊤ ) ⊥ R ( A ) , N ( A ) ⊥ R ( A ⊤ ) ,因此
R ( A ⊤ ) ⊕ N ( A ) = R n R ( A ) ⊕ N ( A ⊤ ) = R m \begin{gather*}
\mathcal{R}(\bm{A}^\top) \oplus \mathcal{N}(\bm{A}) = \mathbb{R}^n \\
\mathcal{R}(\bm{A}) \oplus \mathcal{N}(\bm{A}^\top) = \mathbb{R}^m
\end{gather*}
R ( A ⊤ ) ⊕ N ( A ) = R n R ( A ) ⊕ N ( A ⊤ ) = R m
并且
dim N ( A ) + rank A = n dim N ( A ⊤ ) + rank A = m \begin{gather*}
\dim\mathcal{N}(\bm{A}) + \operatorname{rank}{A} = n \\
\dim\mathcal{N}(\bm{A}^\top) + \operatorname{rank}{A} = m
\end{gather*}
dim N ( A ) + rank A = n dim N ( A ⊤ ) + rank A = m
因此,我们可以将任意向量x \bm{x} x 分解为两个互相正交的向量的和,一个在A ⊤ \bm{A}^\top A ⊤ 的值域中,另一个在A \bm{A} A 的零空间中:
x = A ⊤ y + z , z ∈ N ( A ) \bm{x} = \bm{A}^\top\bm{y} + \bm{z},\bm{z} \in \mathcal{N}(\bm{A})
x = A ⊤ y + z , z ∈ N ( A )
类似地,我们可以将任意向量x \bm{x} x 分解为两个互相正交的向量的和,一个在A \bm{A} A 的值域中,另一个在A ⊤ \bm{A}^\top A ⊤ 的零空间中:
x = A ϕ + ζ , ζ ∈ N ( A ⊤ ) \bm{x} = \bm{A}\bm{\phi } + \bm{\zeta},\bm{\zeta} \in \mathcal{N}(\bm{A}^\top)
x = A ϕ + ζ , ζ ∈ N ( A ⊤ )
3. 行列式、特征值和特征向量
3.1 矩阵对直线的作用
我们首先讨论,一个线性映射A \bm{A} A 如何作用于通过原点的直线(一维子空间)。考虑一个非零向量u ∈ R n \bm{u}\in \mathbb{R}^n u ∈ R n 以及从原点出发原点并经过u \bm{u} u 的直线,即集合L = { x ∣ x = α u , α ∈ R } \mathcal{L} = \{ \bm{x}\mid \bm{x} = \alpha\bm{u}, \alpha \in \mathbb{R}\} L = { x ∣ x = α u , α ∈ R } 。当矩阵作用于属于直线上的向量时,它会将该点旋转(rotate)一个固定角度θ u \theta_u θ u ,并将它的长度按固定量γ u \gamma_u γ u 放大或缩小(shrink/amplify)。旋转角度θ u \theta_u θ u 和长度增益γ u \gamma_u γ u 对于直线上的每个点都是恒定值
∥ y ∥ 2 = ∥ A x ∥ 2 = ∣ α ∣ ∥ A u ∥ 2 = ∥ A u ∥ 2 ∥ u ∥ 2 ∣ α ∣ ∥ u ∥ = ∥ A u ∥ 2 ∥ u ∥ 2 ∥ x ∥ 2 \lVert \bm{y} \rVert_2 = \lVert \bm{Ax} \rVert_2 = \lvert \alpha \rvert \lVert \bm{Au} \rVert_2 = \frac{\lVert\bm{Au} \rVert_2}{\lVert \bm{u} \rVert_2} \lvert \alpha \rvert \lVert \bm{u} \rVert = \frac{\lVert \bm{Au}\rVert_2}{\lVert \bm{u} \rVert_2} \lVert \bm{x} \rVert_2
∥ y ∥ 2 = ∥ Ax ∥ 2 = ∣ α ∣ ∥ Au ∥ 2 = ∥ u ∥ 2 ∥ Au ∥ 2 ∣ α ∣ ∥ u ∥ = ∥ u ∥ 2 ∥ Au ∥ 2 ∥ x ∥ 2
长度增益为γ u = ∥ A u ∥ 2 ∥ u ∥ 2 \gamma_u=\tfrac{\lVert \bm{Au}\rVert_2}{\lVert \bm{u} \rVert_2} γ u = ∥ u ∥ 2 ∥ Au ∥ 2 ,对于旋转角度
cos θ u = y ⊤ x ∥ x ∥ 2 ∥ y ∥ 2 = x ⊤ A ⊤ x ∥ x ∥ 2 ∥ y ∥ 2 = α 2 u ⊤ A ⊤ u γ u α 2 ∥ u ∥ 2 2 = u ⊤ A ⊤ u γ u ∥ u ∥ 2 2 \cos \theta_u = \frac{\bm{y}^\top \bm{x}}{\lVert \bm{x} \rVert_2 \lVert \bm{y} \rVert_2} = \frac{\bm{x}^\top \bm{A}^\top \bm{x}}{\lVert \bm{x} \rVert_2 \lVert \bm{y} \rVert_2} = \frac{\alpha^2 \bm{u}^\top \bm{A}^\top \bm{u}}{\gamma_u \alpha^2 \lVert \bm{u} \rVert^2_2} = \frac{ \bm{u}^\top \bm{A}^\top \bm{u}}{\gamma_u \lVert \bm{u} \rVert^2_2}
cos θ u = ∥ x ∥ 2 ∥ y ∥ 2 y ⊤ x = ∥ x ∥ 2 ∥ y ∥ 2 x ⊤ A ⊤ x = γ u α 2 ∥ u ∥ 2 2 α 2 u ⊤ A ⊤ u = γ u ∥ u ∥ 2 2 u ⊤ A ⊤ u
这二者都仅仅取决于直线的方向u \bm{u} u ,而不取决于直线上的实际点
当∥ x ∥ 2 \lVert \bm{x} \rVert_2 ∥ x ∥ 2 保持不变且方向u \bm{u} u 扫描所有可能的方向时,x \bm{x} x 会沿圆周移动,而图中显示了相应的y \bm{y} y 的轨迹
通过数值实验可以发现,在这个例子中存在两个输入方向u ( 1 ) \bm{u}(1) u ( 1 ) 、u ( 2 ) \bm{u}(2) u ( 2 ) ,它们在由A \bm{A} A 定义的映射下是角度不变的即角度θ u \theta_u θ u 为零(或 ± 180 ∘ \pm 180^\circ ± 18 0 ∘ ),此时A \bm{A} A 在这些直线上表现为标量乘法
3.2 行列式和单位立方体的变化
对于一个2 × 2 2 \times 2 2 × 2 的矩阵
A = [ a 11 a 12 a 21 a 22 ] \bm{A} =
\begin{bmatrix}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{bmatrix}
A = [ a 11 a 21 a 12 a 22 ]
这个矩阵的行列式(determinant)被定义为
det A ≔ a 11 a 22 − a 12 a 21 \det \bm{A} \coloneqq a_{11}a_{22} - a_{12}a_{21}
det A : = a 11 a 22 − a 12 a 21
要求解一般矩阵的行列式,首先要定义标量a a a 的行列式det a = a \det a = a det a = a ,然后应用拉普拉斯行列式展开(Laplace’s determinant expansion)来计算
det ( A ) = ∑ j = 1 n ( − 1 ) i + j a i j det A ( i , j ) \det (\bm{A}) = \sum_{j=1}^n(-1)^{i+j}a_{ij}\det \bm{A}_{(i,j)}
det ( A ) = j = 1 ∑ n ( − 1 ) i + j a ij det A ( i , j )
其中i i i 是任意一行,A ( i , j ) \bm{A}_{(i,j)} A ( i , j ) 表示通过删除A \bm{A} A 的第i i i 行和第j j j 列得到的一个( n − 1 ) × ( n − 1 ) (n−1) \times (n−1) ( n − 1 ) × ( n − 1 ) 子矩阵
假设我们将线性映射y = A x \bm{y} = \bm{Ax} y = Ax 应用于R 2 \mathbb{R}^2 R 2 中单位正方形顶点的四个向量,变换后的点构成一个平行四边形的顶点
单位正方形的面积为一。通过验证可以知道变换后的四边形(即平行四边形)的面积等于矩阵行列式的绝对值。可以证明,在一般维数n n n 中,矩阵A \bm{A} A 的行列式的绝对值仍然描述了单位超立方体通过A \bm{A} A 变换得到的平行多面体的体积
行列式是定义在方阵 上的实值函数,矩阵的行列式有以下性质
交换矩阵的两行或者两列会改变行列式的符号
行列式在矩阵的每一行/列上都是线性的
单位矩阵的行列式为1
当变换后的立方体体积为零时,也就是行列式为零时 ,此时矩阵为奇异矩阵(singular)。此时矩阵某一行(或某一列)是另一行(或另一列)的倍数,列(和行)不再是线性无关的 ,并且矩阵具有非平凡的零空间(零空间不只有原点)。这意味着存在输入空间中的方向,沿着这些方向所有输入向量都被A \bm{A} A 映射为零,可以证明
A ∈ R n , n is singular ⇔ det A = 0 ⇔ N ( A ) is not equal to { 0 } . \bm{A} \in \mathbb{R}^{n,n}\text{ is singular }\Leftrightarrow\det \bm{A}=0\boldsymbol{\Leftrightarrow}\mathcal{N}(\bm{A})\text{ is not equal to }\{0\}.
A ∈ R n , n is singular ⇔ det A = 0 ⇔ N ( A ) is not equal to { 0 } .
对于任意方阵A , B ∈ R n , n \bm{A},\bm{B}\in \mathbb{R}^{n,n} A , B ∈ R n , n 有如下性质
det A = det A ⊤ det A B = det B A = det A det B det α A = α n det A \begin{gather*}
\det \bm{A} = \det \bm{A}^\top \\
\det \bm{AB} = \det \bm{BA} = \det \bm{A} \det \bm{B} \\
\det \alpha\bm{A} = \alpha^n\det \bm{A}
\end{gather*}
det A = det A ⊤ det AB = det BA = det A det B det α A = α n det A
对于分块上三角(upper block-triangular)矩阵
X = [ X 11 X 12 X 21 X 22 ] \bm{X} =\begin{bmatrix}
\bm{X}_{11} & \bm{X}_{12} \\
\bm{X}_{21} & \bm{X}_{22}
\end{bmatrix}
X = [ X 11 X 21 X 12 X 22 ]
有如下结论
det X = det X 11 + det X 22 \det \bm{X} = \det \bm{X}_{11} + \det \bm{X}_{22}
det X = det X 11 + det X 22
对于分块下三角(lower block-triangular)矩阵也有类似结论
3.3 矩阵的逆
对于一个非奇异矩阵A \bm{A} A ,我们定义它的逆矩阵(inverse matrix)A − 1 \bm{A}^{-1} A − 1 定义为满足以下条件的唯一矩阵
A A − 1 = A − 1 A = I n \bm{AA}^{-1} = \bm{A}^{-1}\bm{A} = \bm{I}_n
AA − 1 = A − 1 A = I n
矩阵求逆有以下性质
( A B ) − 1 = B − 1 A − 1 ( A ⊤ ) − 1 = ( A − 1 ) ⊤ det A = det A ⊤ = 1 det A − 1 \begin{gather*}
(\bm{AB})^{-1}=\bm{B}^{-1}\bm{A}^{-1} \\
(\bm{A}^\top)^{-1} = (\bm{A}^{-1})^\top \\
\det \bm{A} = \det \bm{A}^\top = \frac{1}{\det \bm{A}^{-1}}
\end{gather*}
( AB ) − 1 = B − 1 A − 1 ( A ⊤ ) − 1 = ( A − 1 ) ⊤ det A = det A ⊤ = det A − 1 1
对于非方阵或是奇异方阵不存在常规意义的逆矩阵,但是可以定义广义逆矩阵(generalized inverse)/伪逆矩阵(pseudoinverse)。对于一般矩阵A ∈ R m , n \bm{A}\in \mathbb{R}^{m,n} A ∈ R m , n ,如果满足
A l i A = I n , m ≥ n A A r i = I m , n ≥ m \begin{gather*}
\bm{A}^{li}\bm{A} = \bm{I}_n,m \geq n \\
\bm{A}\bm{A}^{ri} = \bm{I}_m,n \geq m \\
\end{gather*}
A l i A = I n , m ≥ n A A r i = I m , n ≥ m
则A l i \bm{A}^{li} A l i 被称为A \bm{A} A 的左逆,A r i \bm{A}^{ri} A r i 被称为A \bm{A} A 的右逆
如果A A p i A = A \bm{AA}^{pi} \bm{A} = \bm{A} AA p i A = A ,则称矩阵A p i \bm{A}^{pi} A p i 为A \bm{A} A 的伪逆。左逆、右逆和伪逆将在Chapter 5中进一步讨论
根据逆矩阵的定义可以初步得出推论:
矩阵可逆是行列式不为零的充要条件;
矩阵可逆是特征值全不为零的充要条件;
证明
矩阵可逆则行列式不为零
由可逆的定义,存在A − 1 \bm{A}^{-1} A − 1 使得A A − 1 = I \bm{AA}^{-1}=\bm{I} AA − 1 = I ,对等式两边取行列式
det ( A A − 1 ) = det ( I ) det ( A ) det ( A − 1 ) = 1 \begin{align*}
\det (\bm{AA}^{-1}) &= \det (\bm{I}) \\
\det (\bm{A})\det (\bm{A}^{-1}) &= 1 \\
\end{align*}
det ( AA − 1 ) det ( A ) det ( A − 1 ) = det ( I ) = 1
若行列式为零,则左边为0 0 0 ,与等式右边1 1 1 矛盾
行列式不为零则矩阵可逆
对于任意n阶方阵A \bm{A} A ,其伴随矩阵A ∗ \bm{A}^\ast A ∗ 满足
A A ∗ = A ∗ A = det ( A ) I \bm{AA}^\ast = \bm{A}^\ast\bm{A} = \det (\bm{A})\bm{I}
AA ∗ = A ∗ A = det ( A ) I
因为行列式不为零,将两边都除以det ( A ) \det (\bm{A}) det ( A )
A A ∗ det ( A ) = A ∗ det ( A ) A = I \bm{A}\frac{\bm{A}^\ast}{\det (\bm{A})}= \frac{\bm{A}^\ast}{\det (\bm{A)}}\bm{A} = \bm{I}
A det ( A ) A ∗ = det ( A ) A ∗ A = I
A ∗ det ( A ) \tfrac{\bm{A}^\ast}{\det (\bm{A})} d e t ( A ) A ∗ 即为逆矩阵
矩阵可逆⇔ \Leftrightarrow ⇔ 特征值全不为零
根据Section3.3.5中的结论可知特征值之积等于行列式,矩阵可逆则行列式不为零,那么特征值之积便不为零,那么特征值全不为零;反之亦然
结合Section3.3.2中关于奇异矩阵的结论,我们可以得到更加全面的结论
结论
对于A ∈ R n , n \bm{A} \in \mathbb{R}^{n,n} A ∈ R n , n 有
矩阵奇异 ⇔ \Leftrightarrow ⇔ 特征值为零 ⇔ \Leftrightarrow ⇔ 零空间不平凡(零空间不只有零点) ⇔ \Leftrightarrow ⇔ 矩阵不可逆 ⇔ \Leftrightarrow ⇔ 存在特征值为零
矩阵非奇异 ⇔ \Leftrightarrow ⇔ 特征值不为零 ⇔ \Leftrightarrow ⇔ 零空间平凡(零空间只有零点) ⇔ \Leftrightarrow ⇔ 矩阵可逆 ⇔ \Leftrightarrow ⇔ 特征值全不为零
3.4 相似矩阵
如果存在一个非奇异矩阵P ∈ R n , n \bm{P}\in \mathbb{R}^{n,n} P ∈ R n , n ,使得两个矩阵A , B ∈ R n , n \bm{A},\bm{B}\in \mathbb{R}^{n,n} A , B ∈ R n , n 满足如下条件,则称它们是相似(similar)的
B = P − 1 A P \bm{B} = \bm{P}^{-1}\bm{AP}
B = P − 1 AP
相似矩阵是同一线性映射在不同空间基的不同表现。考虑原空间的线性映射
y = A x \bm{y} = \bm{Ax}
y = Ax
由于P \bm{P} P 是非奇异的,其列向量是线性无关的,因此它们代表了R n \mathbb{R}^n R n 的一组基。向量y \bm{y} y 和x \bm{x} x 可以在该基下表示为P \bm{P} P 列向量的线性组合
A y ~ = y A x ~ = x \begin{gather*}
\bm{A}\tilde{\bm{y}} = \bm{y} \\
\bm{A}\tilde{\bm{x}} = \bm{x}
\end{gather*}
A y ~ = y A x ~ = x
线性映射在新基下表达为
y = A x ⇒ y ~ = P − 1 A P x ~ = B x ~ \bm{y} = \bm{Ax} \quad \Rightarrow \quad \tilde{\bm{y}}= \bm{P}^{-1}\bm{AP} \tilde{\bm{x}} = \bm{B} \tilde{\bm{x}}
y = Ax ⇒ y ~ = P − 1 AP x ~ = B x ~
3.5 特征向量和特征值
我们前面在研究矩阵对直线的作用时提到过,矩阵会对对直线上的点(向量)进行旋转和放缩,我们现在将视角从R n \mathbb{R}^n R n 扩大到C n \mathbb{C}^n C n 。特征向量(eigenvector)只是C n \mathbb{C}^n C n 中在矩阵作用下角度不变的方向,特征值(eigenvalue)是对点放缩的系数。更准确地说,如果存在λ ∈ C \lambda \in \mathbb{C} λ ∈ C 是矩阵A ∈ R n , n \bm{A} \in \mathbb{R}^{n,n} A ∈ R n , n 的特征值,且u ∈ C n \bm{u} \in \mathbb{C}^n u ∈ C n 是对应的特征向量,则下式成立
A u = λ u , u ≠ 0 \bm{Au} = \lambda \bm{u}, \bm{u} \neq \bm{0}
Au = λ u , u = 0
或者等价形式
( λ I n − A ) u = 0 , u ≠ 0 (\lambda \bm{I}_n - \bm{A}) \bm{u} = \bm{0}, \bm{u} \neq \bm{0}
( λ I n − A ) u = 0 , u = 0
方程表明为了使( λ , u ) (\lambda , \bm{u}) ( λ , u ) 成为特征值/特征向量对,必须满足以下条件:
λ \lambda λ 的取值要使矩阵λ I n − A \lambda \bm{I}_n - \bm{A} λ I n − A 奇异
u \bm{u} u 位于λ I n − A \lambda \bm{I}_n - \bm{A} λ I n − A 的零空间中
由于λ I n − A \lambda \bm{I}_n - \bm{A} λ I n − A 当且仅当其行列式为零时是奇异的,因此特征值可以很容易地被描述为满足下述方程的实数或复数
det ( λ I n − A ) = 0 \det (\lambda \bm{I}_n - \bm{A}) = 0
det ( λ I n − A ) = 0
p ( λ ) ≔ det ( λ I n − A ) p(\lambda ) \coloneqq \det (\lambda \bm{I}_n - \bm{A}) p ( λ ) : = det ( λ I n − A ) 是关于λ \lambda λ 的n n n 次多项式,被称为矩阵A \bm{A} A 的特征多项式(characteristic polynomial)。因此,矩阵的特征值就是特征多项式的根。其中一些特征值确实可以是特征多项式的“重根”。此外,一些特征值可能是复数,具有非零的虚部,在这种情况下,它们成共轭复数对出现。下列定理成立
定理3.2(代数学基本定理) :任意矩阵A ∈ R n , n \bm{A} \in \mathbb{R}^{n,n} A ∈ R n , n 都有n n n 个特征值,按重数计算。
我们称不考虑重数的特征值为互异特征值(distinct eigenvalues),每个互异特征值都有一个对应的代数重数(algebraic multiplicity)μ i ≥ 1 \mu_i \geq 1 μ i ≥ 1 ,定义为该特征值作为特征多项式根出现的次数。因此∑ i = 1 k μ i = n \sum_{i=1}^{k} \mu_i = n ∑ i = 1 k μ i = n
对于每个互异特征值都对应一个由与该特征值相关的特征向量组成的整个子空间V i ≔ N ( λ i I n − A ) \mathcal{V}_i \coloneqq \mathcal{N}(\lambda_i \bm{I}_n − \bm{A}) V i : = N ( λ i I n − A ) ,称为特征空间。属于不同特征空间的特征向量是线性无关的
定理3.3 :设λ i \lambda_i λ i 是矩阵A \bm{A} A 的互异特征值。设V i = N ( λ i I n − A ) \mathcal{V}_i = \mathcal{N}(\lambda_i \bm{I}_n − \bm{A}) V i = N ( λ i I n − A ) ,并且令u ( i ) \bm{u}^{(i)} u ( i ) 为任意非零向量,使得u ( i ) ∈ V i \bm{u}^{(i)} \in \mathcal{V}_i u ( i ) ∈ V i 。则这些u ( i ) \bm{u}^{(i)} u ( i ) 线性无关
证明
首先证明两个向量是线性无关的
假设最初u ( i ) ∈ V j , j ≠ i \bm{u}^{(i)} \in \mathcal{V}_j,j \neq i u ( i ) ∈ V j , j = i 。这意味着A u ( i ) = λ j u ( i ) = λ i u ( i ) \bm{Au}^{(i)} = \lambda _j \bm{u}^{(i)} = \lambda _i \bm{u}^{(i)} Au ( i ) = λ j u ( i ) = λ i u ( i ) ,因此λ i = λ j \lambda_i = \lambda_j λ i = λ j ,但这是不可能的,因为这些λ \lambda λ 是互异的。假设矛盾,所以任意两个向量是线性无关的
但是向量组中任意两个向量线性无关,向量组不一定线性无关,因此还需要证明整个特征向量组是线性无关的
为了反证法的目的,假设存在一个u ( i ) \bm{u}^{(i)} u ( i ) (例如不失一般性,取第一个,u ( 1 ) \bm{u}^{(1)} u ( 1 ) 可以表示为其他特征向量的线性组合:
u ( 1 ) = ∑ i = 2 k α i u ( i ) \bm{u}^{(1)} = \sum_{i=2}^{k} \alpha_i \bm{u}^{(i)}
u ( 1 ) = i = 2 ∑ k α i u ( i )
然后我们有两个恒等式
λ 1 u ( 1 ) = ∑ i = 2 k α i λ 1 u ( i ) λ 1 u ( 1 ) = A u ( 1 ) = ∑ i = 2 k α i A u ( i ) = ∑ i = 2 k α i λ i u ( i ) \begin{gather*}
\lambda_1\bm{u}^{(1)} = \sum_{i=2}^{k} \alpha_i \lambda_1\bm{u}^{(i)} \\
\lambda_1\bm{u}^{(1)} = \bm{A}\bm{u}^{(1)} = \sum_{i=2}^{k} \alpha_i \bm{A}\bm{u}^{(i)} = \sum_{i=2}^{k} \alpha_i \lambda_i\bm{u}^{(i)}
\end{gather*}
λ 1 u ( 1 ) = i = 2 ∑ k α i λ 1 u ( i ) λ 1 u ( 1 ) = A u ( 1 ) = i = 2 ∑ k α i A u ( i ) = i = 2 ∑ k α i λ i u ( i )
比较两个方程可以得到
∑ i = 2 k α i ( λ i − λ 1 ) u ( i ) = 0 \sum_{i=2}^{k} \alpha_i (\lambda_i- \lambda_1)\bm{u}^{(i)} = \bm{0}
i = 2 ∑ k α i ( λ i − λ 1 ) u ( i ) = 0
其中λ i − λ 1 ≠ 0 \lambda_i - \lambda _1 \neq 0 λ i − λ 1 = 0 ,因为根据假设,特征值是互异的。这意味着∑ i = 2 k α i u ( i ) \sum_{i=2}^{k}\alpha _i \bm{u}^{(i)} ∑ i = 2 k α i u ( i ) 为零,所以u ( 2 ) , ⋯ , u ( k ) \bm{u}^{(2)},\cdots , \bm{u}^{(k)} u ( 2 ) , ⋯ , u ( k ) 是线性相关的。因此至少有一个向量,比如说不失一般性,u ( 2 ) \bm{u}^{(2)} u ( 2 ) ,可以表示为其他向量u ( 3 ) , ⋯ , u ( k ) \bm{u}^{(3)},\cdots , \bm{u}^{(k)} u ( 3 ) , ⋯ , u ( k ) 的线性组合。在此基础上,通过重复最初的推理,我们也会得出u ( 3 ) , ⋯ , u ( k ) \bm{u}^{(3)},\cdots , \bm{u}^{(k)} u ( 3 ) , ⋯ , u ( k ) 是线性相关的。以此类推,我们最终会得出u ( k − 1 ) , u ( k ) \bm{u}^{(k-1)}, \bm{u}^{(k)} u ( k − 1 ) , u ( k ) 是线性相关的结论。根据我们前面的证明,这是不可能的。因此,我们得出假设与事实矛盾,从而该命题得证
这部分将整个特征向量组是线性无关的证明推导成任意两个向量是线性无关的
得益于特征值和特征向量,一个方阵可以被表示为与一个分块三角矩阵相似,即具有以下形式的矩阵
[ A 11 A 12 ⋯ A 1 p 0 A 22 ⋯ A 2 p ⋮ ⋱ ⋱ ⋮ 0 ⋯ 0 A p p ] \begin{bmatrix}
\bm{A}_{11} & \bm{A}_{12} & \cdots & \bm{A}_{1p} \\
\bm{0} & \bm{A}_{22} & \cdots & \bm{A}_{2p} \\
\vdots & \ddots & \ddots & \vdots \\
\bm{0} & \cdots & \bm{0} & \bm{A}_{pp} \\
\end{bmatrix}
A 11 0 ⋮ 0 A 12 A 22 ⋱ ⋯ ⋯ ⋯ ⋱ 0 A 1 p A 2 p ⋮ A pp
其中对角线上的矩阵为方阵
设v i v_i v i 为V i \mathcal{V}_i V i 的维数,并设一个矩阵U ( i ) = [ u 1 ( i ) … u v i ( i ) ] \bm{U}^{(i)}=[\bm{u}_1^{(i)}\quad \dots \quad \bm{u}_{v_i}^{(i)}] U ( i ) = [ u 1 ( i ) … u v i ( i ) ] ,其列为V i \mathcal{V}_i V i 的一组基。在不失一般性的情况下,该矩阵可以选择为列标准正交的矩阵。实际上,可以先选任意一组基,并对该基应用Gram–Schmidt正交化过程(见Section2.3.3),即可得到标准正交基。通过这种选择,有U ( i ) ⊤ U ( i ) = I v i \bm{U}^{(i)\top} \bm{U}^{(i)} = \bm{I}_{v_i} U ( i ) ⊤ U ( i ) = I v i 。进一步设Q ( i ) \bm{Q}^{(i)} Q ( i ) 为一个n × ( n − v i ) n \times (n − v_i) n × ( n − v i ) 矩阵,其列标准正交并张成与R ( U ( i ) ) \mathcal{R}(\bm{U}^{(i)}) R ( U ( i ) ) 正交的子空间
推论3.1 :任意矩阵A ∈ R n , n \bm{A} \in \mathbb{R}^{n,n} A ∈ R n , n 都与一个分块三角矩阵相似,该矩阵在对角线上具有块λ i I v i \lambda _i \bm{I}_{v_i} λ i I v i ,其中λ i \lambda _i λ i 是A \bm{A} A 的一个互异特征值,v i v_i v i 是对应特征空间的维数
证明
符合矩阵P i ≔ [ U ( i ) Q ( i ) ] \bm{P}_i \coloneqq [\bm{U}^{(i)} \quad \bm{Q}^{(i)}] P i : = [ U ( i ) Q ( i ) ] 是一个正交矩阵(P i \bm{P}_i P i 的列向量形成一个覆盖整个C n \mathbb{C}^n C n 空间的标准正交(orthonormal)基,参考Section3.4.64.6节 ),因此它是可逆(invertible)的,并且P i − 1 = P i ⊤ \bm{P}_i^{-1} = \bm{P}_i^\top P i − 1 = P i ⊤ ,参考Section3.4.64.6节 。因为A U ( i ) = λ i U ( i ) \bm{AU}^{(i)}=\lambda_i \bm{U}^{(i)} AU ( i ) = λ i U ( i ) ,可以得到
U ( i ) ⊤ A U ( i ) = λ i U ( i ) ⊤ U ( i ) = λ i I v i Q ( i ) ⊤ A U ( i ) = λ i Q ( i ) ⊤ U ( i ) = 0 \begin{gather*}
\bm{U}^{(i)\top}\bm{AU}^{(i)}=\lambda_i \bm{U}^{(i)\top}\bm{U}^{(i)} = \lambda_i \bm{I}_{v_i}\\
\bm{Q}^{(i)\top}\bm{AU}^{(i)}=\lambda_i \bm{Q}^{(i)\top}\bm{U}^{(i)} = \bm{0}
\end{gather*}
U ( i ) ⊤ AU ( i ) = λ i U ( i ) ⊤ U ( i ) = λ i I v i Q ( i ) ⊤ AU ( i ) = λ i Q ( i ) ⊤ U ( i ) = 0
因此可以得到
P i − 1 A P i = P i ⊤ A P i = [ λ i I v i U ( i ) ⊤ A Q ( i ) 0 Q ( i ) ⊤ A Q ( i ) ] \bm{P}_i^{-1} \bm{A} \bm{P}_i = \bm{P}_i^\top \bm{A} \bm{P}_i =
\begin{bmatrix}
\lambda_i \bm{I}_{v_i} & \bm{U}^{(i)\top}\bm{AQ}^{(i)} \\
\bm{0} & \bm{Q}^{(i)\top}\bm{AQ}^{(i)}
\end{bmatrix}
P i − 1 A P i = P i ⊤ A P i = [ λ i I v i 0 U ( i ) ⊤ AQ ( i ) Q ( i ) ⊤ AQ ( i ) ]
证明完成
由于相似矩阵具有相同的特征值集合(包括重数) ,并且分块上三角矩阵的特征值集合是对角块特征值的并集 ,观察上式可以发现左上角矩阵特征值的重数为v i v_i v i ,因此总体的特征值重数μ i \mu_i μ i 必须总是满足v i ≤ μ i v_i \leq \mu_i v i ≤ μ i ,最终可以得出结论:互异特征值对应的特征空间维数总是小于等于特征值重数
证明
1. 相似矩阵具有相同的特征值集合(包括重数)
证明核心为:相似矩阵的特征多项式相等。设A , B ∈ R n , n \bm{A},\bm{B} \in \mathbb{R}^{n,n} A , B ∈ R n , n 为相似矩阵,即B = P − 1 A P \bm{B}=\bm{P}^{-1}\bm{A}\bm{P} B = P − 1 A P ,B \bm{B} B 的特征多项式为
f B ( λ ) = det ( λ I − B ) = det ( λ I − P − 1 A P ) = det ( P − 1 P λ I − P − 1 P P − 1 A P ) = det ( P − 1 ( P λ I ) − P − 1 A P ) 与单位矩阵相乘可以使用交换律 = det ( P − 1 ( λ I P ) − P − 1 A P ) = det ( P − 1 ( λ I − A ) P ) = det ( P − 1 ) det ( λ I − A ) det ( P ) = det ( P − 1 P ) det ( λ I − A ) = det ( λ I − A ) = f A ( λ ) \begin{align*}
f_{\bm{B}}(\lambda) &= \det(\lambda \bm{I}-\bm{B})\\
&= \det(\lambda \bm{I}-\bm{P}^{-1}\bm{A}\bm{P}) \\
&= \det(\bm{P}^{-1}\bm{P}\lambda \bm{I}-\bm{P}^{-1}\bm{P}\bm{P}^{-1}\bm{A}\bm{P}) \\
&= \det \big(\bm{P}^{-1}(\bm{P} \lambda\bm{I})-\bm{P}^{-1}\bm{A}\bm{P}\big) \text{与单位矩阵相乘可以使用交换律} \\
&= \det \big(\bm{P}^{-1}(\lambda\bm{I}\bm{P} )-\bm{P}^{-1}\bm{A}\bm{P}\big) \\
&= \det \big(\bm{P}^{-1}(\lambda\bm{I} - \bm{A} )\bm{P}\big) \\
&= \det (\bm{P}^{-1})\det(\lambda\bm{I} - \bm{A} )\det(\bm{P}) \\
&= \det (\bm{P}^{-1}\bm{P})\det(\lambda\bm{I} - \bm{A} ) \\
&=\det(\lambda\bm{I} - \bm{A}) \\
&=f_{\bm{A}}(\lambda)
\end{align*}
f B ( λ ) = det ( λ I − B ) = det ( λ I − P − 1 A P ) = det ( P − 1 P λ I − P − 1 P P − 1 A P ) = det ( P − 1 ( P λ I ) − P − 1 A P ) 与单位矩阵相乘可以使用交换律 = det ( P − 1 ( λ I P ) − P − 1 A P ) = det ( P − 1 ( λ I − A ) P ) = det ( P − 1 ) det ( λ I − A ) det ( P ) = det ( P − 1 P ) det ( λ I − A ) = det ( λ I − A ) = f A ( λ )
2. 分块上三角矩阵的特征值集合是对角块特征值的并集
核心证明为:上三角矩阵特征多项式可拆分成对角块特征多项式连乘。定义上三角矩阵
M = [ A 11 A 12 ⋯ A 1 k 0 A 22 ⋯ A 2 k ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ A k k ] \bm{M}=
\begin{bmatrix}
\bm{A}_{11} & \bm{A}_{12} & \cdots & \bm{A}_{1k} \\
\bm{0} & \bm{A}_{22} & \cdots & \bm{A}_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
\bm{0} & \bm{0} & \cdots & \bm{A}_{kk} \\
\end{bmatrix}
M = A 11 0 ⋮ 0 A 12 A 22 ⋮ 0 ⋯ ⋯ ⋱ ⋯ A 1 k A 2 k ⋮ A kk
则需证明f M ( λ ) = f A 11 ( λ ) f A 22 ( λ ) ⋯ f A k k ( λ ) f_{\bm{M}}(\lambda) = f_{\bm{A}_{11}}(\lambda)f_{\bm{A}_{22}}(\lambda)\cdots f_{\bm{A}_{kk}}(\lambda) f M ( λ ) = f A 11 ( λ ) f A 22 ( λ ) ⋯ f A kk ( λ ) 。要证明上述特征多项式等式,只需引入核心引理:分块上三角矩阵的行列式 = 其所有对角块行列式的乘积 ,即:det ( M ) = det ( A 11 ) ⋅ det ( A 22 ) ⋅ ⋯ ⋅ det ( A k k ) \det(M) = \det(A_{11}) \cdot \det(A_{22}) \cdot \dots \cdot \det(A_{kk}) det ( M ) = det ( A 11 ) ⋅ det ( A 22 ) ⋅ ⋯ ⋅ det ( A kk ) 。这个可通过归纳法证明
λ I − M = [ λ I − A 11 − A 12 ⋯ − A 1 k 0 λ I − A 22 ⋯ − A 2 k ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ I − A k k ] \lambda \bm{I}-\bm{M}=
\begin{bmatrix}
\lambda \bm{I}-\bm{A}_{11} & -\bm{A}_{12} & \cdots & -\bm{A}_{1k} \\
\bm{0} & \lambda \bm{I}-\bm{A}_{22} & \cdots & -\bm{A}_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
\bm{0} & \bm{0} & \cdots & \lambda \bm{I}-\bm{A}_{kk} \\
\end{bmatrix}
λ I − M = λ I − A 11 0 ⋮ 0 − A 12 λ I − A 22 ⋮ 0 ⋯ ⋯ ⋱ ⋯ − A 1 k − A 2 k ⋮ λ I − A kk
对λ I − M \lambda \bm{I}-\bm{M} λ I − M 应用此结论,可得到det ( λ I − M ) = det ( λ I − A 11 ) ⋅ det ( λ I − A 22 ) ⋅ ⋯ ⋅ det ( λ I − A k k ) \det(\lambda \bm{I}-\bm{M}) = \det(\lambda \bm{I}-\bm{A}_{11}) \cdot \det(\lambda \bm{I}-\bm{A}_{22}) \cdot \dots \cdot \det(\lambda \bm{I}-\bm{A}_{kk} ) det ( λ I − M ) = det ( λ I − A 11 ) ⋅ det ( λ I − A 22 ) ⋅ ⋯ ⋅ det ( λ I − A kk ) ,即f M ( λ ) = f A 11 ( λ ) f A 22 ( λ ) ⋯ f A k k ( λ ) f_{\bm{M}}(\lambda) = f_{\bm{A}_{11}}(\lambda)f_{\bm{A}_{22}}(\lambda)\cdots f_{\bm{A}_{kk}}(\lambda) f M ( λ ) = f A 11 ( λ ) f A 22 ( λ ) ⋯ f A kk ( λ )
对于特征值我们有结论:特征值之和等于迹,特征值之积等于行列式
证明
证明需要用到韦达定理的推广定理
所有根之和为n − 1 n-1 n − 1 次项系数与n n n 次项系数之比的相反数
所有根之积为常数项与n n n 次项系数之比再乘以( − 1 ) n (-1)^n ( − 1 ) n
设A ∈ R n , n \bm{A} \in \mathbb{R} ^{n,n} A ∈ R n , n ,其特征多项式为
f A ( λ ) = ∣ λ − a 11 − a 12 ⋯ − a 1 n − a 21 λ − a 22 ⋯ − a 2 n ⋮ ⋮ ⋱ ⋮ − a n 1 − a n 2 ⋯ λ − a n n ∣ f_{\bm{A}}(\lambda ) =
\begin{vmatrix}
\lambda - a_{11} & -a_{12} & \cdots & -a_{1n} \\
-a_{21} & \lambda -a_{22} & \cdots & -a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
-a_{n1} & -a_{n2} & \cdots & \lambda -a_{nn}
\end{vmatrix}
f A ( λ ) = λ − a 11 − a 21 ⋮ − a n 1 − a 12 λ − a 22 ⋮ − a n 2 ⋯ ⋯ ⋱ ⋯ − a 1 n − a 2 n ⋮ λ − a nn
特征多项式的常数项等于多项式在0 0 0 处的值,即
f ( 0 ) = ∣ − A ∣ = ( − 1 ) n ∣ A ∣ f(0) = \lvert -\bm{A} \rvert = (-1)^n\lvert \bm{A} \rvert
f ( 0 ) = ∣ − A ∣ = ( − 1 ) n ∣ A ∣
因为行列式中,只有主对角线元素含有λ \lambda λ ,因此在行列式的所有乘积项中,除了主对角线的n n n 个元素的乘积,其余的乘积项中λ \lambda λ 的次数不会超过n − 2 n-2 n − 2 次。所以f A ( λ ) f_{\bm{A}}(\lambda ) f A ( λ ) 中λ n \lambda ^n λ n 和λ n − 1 \lambda ^{n-1} λ n − 1 的系数只需考虑( λ − a 11 ) ( λ − a 22 ) ⋯ ( λ − a n n ) (\lambda - a_{11})(\lambda -a_{22})\cdots(\lambda -a_{nn}) ( λ − a 11 ) ( λ − a 22 ) ⋯ ( λ − a nn ) 项。因此λ n \lambda ^n λ n 的系数为1 1 1 ,λ n − 1 \lambda ^{n-1} λ n − 1 的系数为− ∑ i = 1 n a i i -\sum_{i=1}^{n}a_{ii} − ∑ i = 1 n a ii ,根据韦达定理知
λ 1 + λ 2 + ⋯ + λ n = ∑ i = 1 n a i i = trace ( A ) λ 1 λ 2 ⋯ λ n = ∣ A ∣ \begin{gather*}
\lambda _1 + \lambda _2 + \cdots +\lambda _n = \sum_{i=1}^{n}a_{ii} = \operatorname{trace} (\bm{A}) \\
\lambda _1 \lambda _2 \cdots \lambda _n = \lvert \bm{A} \rvert
\end{gather*}
λ 1 + λ 2 + ⋯ + λ n = i = 1 ∑ n a ii = trace ( A ) λ 1 λ 2 ⋯ λ n = ∣ A ∣
3.6 可对角化矩阵
在某些假设下,A ∈ R n , n \bm{A} \in \mathbb{R} ^{n,n} A ∈ R n , n 与一个对角矩阵相似,即A \bm{A} A 是可对角化的(diagonalizable)。(并非所有方阵都是可对角化的。但是可以证明,总存在一个任意小的加法扰动使其可对角化)
定理3.4 : 设λ i \lambda_i λ i 是矩阵A ∈ R n , n \bm{A} \in \mathbb{R} ^{n,n} A ∈ R n , n 的互异特征值,设μ i \mu _i μ i 为对应的代数重数,定义V i = N ( λ i I n − A ) \mathcal{V}_i = \mathcal{N}(\lambda_i \bm{I}_n − \bm{A}) V i = N ( λ i I n − A ) ,定义U ( i ) = [ u 1 ( i ) … u v i ( i ) ] \bm{U}^{(i)}=[\bm{u}_1^{(i)}\quad \dots \quad \bm{u}_{v_i}^{(i)}] U ( i ) = [ u 1 ( i ) … u v i ( i ) ] 的列为V i \mathcal{V}_i V i 的一组基,那么v i ≔ dim V i v_i \coloneqq \dim \mathcal{V}_i v i : = dim V i ,可以得到v i ≤ μ i v_i \leq \mu_i v i ≤ μ i 。如果v i = μ i v_i = \mu_i v i = μ i 那么U = [ U ( 1 ) … U ( k ) ] \bm{U}=[\bm{U}^{(1)}\quad \dots \quad \bm{U}^{(k)}] U = [ U ( 1 ) … U ( k ) ] 是可逆的,并且A = U Λ U − 1 \bm{A} = \bm{U} \bm{\Lambda} \bm{U}^{-1} A = U Λ U − 1 ,其中
Λ = [ λ 1 I μ 1 0 ⋯ 0 0 λ 2 I μ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 ⋯ 0 λ k I μ k ] \Lambda =
\begin{bmatrix}
\lambda _1 \bm{I}_{\mu _1} & \bm{0} & \cdots & \bm{0} \\
\bm{0} & \lambda _2 \bm{I}_{\mu _2} & \cdots & \bm{0} \\
\vdots & \vdots & \ddots & \vdots \\
\bm{0} & \cdots & \bm{0} & \lambda _k \bm{I}_{\mu _k}
\end{bmatrix}
Λ = λ 1 I μ 1 0 ⋮ 0 0 λ 2 I μ 2 ⋮ ⋯ ⋯ ⋯ ⋱ 0 0 0 ⋮ λ k I μ k
证明
v i ≤ μ i v_i \leq \mu_i v i ≤ μ i 已经在前文证明了。现在令v i = μ i v_i = \mu_i v i = μ i 。因为向量u 1 ( i ) , … , u v i ( i ) \bm{u}_1^{(i)},\dots,\bm{u}_{v_i}^{(i)} u 1 ( i ) , … , u v i ( i ) 是特征空间的基,因此它们是线性无关的。此外,根据定理3.3,不同特征值对应的特征空间中的基是线性无关的。这意味着整个集合{ u j ( i ) } i = 1 , … , k ; j = 1 , … , v i \{ \bm{u}_j^{(i)} \}_{i=1,\dots,k;j=1,\dots,v_i} { u j ( i ) } i = 1 , … , k ; j = 1 , … , v i 是线性无关的。那么矩阵U \bm{U} U 是满秩的。由于对所有i i i 有v i = μ i v_i = \mu_i v i = μ i ,那么∑ i = 1 k v i = ∑ i = 1 k μ i \sum_{i=1}^{k}v_i =\sum_{i=1}^{k}\mu_i ∑ i = 1 k v i = ∑ i = 1 k μ i ,此时U ∈ R n , n \bm{U} \in \mathbb{R}^{n,n} U ∈ R n , n 是方阵,且是满秩故而可逆
对于每个i = 1 , … , k i = 1,\dots, k i = 1 , … , k ,我们有A u j ( i ) = λ i u j ( i ) \bm{Au}_j^{(i)}=\lambda _i \bm{u}_j^{(i)} Au j ( i ) = λ i u j ( i ) ,可以将同一个特征值下的等式写进一个矩阵
A U j ( i ) = λ i u j ( i ) \bm{AU}_j^{(i)}=\lambda _i \bm{u}_j^{(i)}
AU j ( i ) = λ i u j ( i )
再将不同特征值的等式写进一个矩阵
A U = U Λ \bm{AU} = \bm{U \Lambda }
AU = U Λ
将等式两边同时右乘U − 1 \bm{U}^{-1} U − 1 ,可得到所证
4. 具有特殊结构和性质的矩阵
4.1 方阵
方阵(square matrix)是指行数和列数相同的矩阵
4.2 稀疏矩阵
非正式地说,如果矩阵中的大多数元素为零,则称其为稀疏矩阵(sparse matrix)。在处理稀疏矩阵时,可以获得若干计算效率的提高。例如,可以仅存储其非零元素。此外,通过仅处理矩阵的非零元素,像加法和乘法这样的操作也可以高效地进行
4.3 对称矩阵
对称矩阵(symmetric matirx)是满足A = A ⊤ \bm{A} = \bm{A}^\top A = A ⊤ 的方阵。一个对称的n × n n \times n n × n 矩阵由主对角线及其上方的元素决定,对角线下方的元素是上方元素的对称副本。因此,对称矩阵的“自由”元素的数量是
n + ( n − 1 ) + ⋯ + 1 = n ( n + 1 ) 2 n+(n-1)+\cdots+1 = \frac{n(n+1)}{2}
n + ( n − 1 ) + ⋯ + 1 = 2 n ( n + 1 )
对称矩阵在Chapter4进一步讨论
4.4 对角矩阵
对角矩阵(diagonal matrices)是指除对角线上以外的元素全为0的方阵。一个n × n n \times n n × n 的对角矩阵可以表示为A = diag ( a ) \bm{A} = \operatorname{diag}(\bm{a}) A = diag ( a ) ,其中a \bm{a} a 是一个包含A \bm{A} A 对角元素的n n n 维向量
A = diag ( a 1 , ⋯ , a n ) = [ a 1 ⋱ a n ] \bm{A} = \operatorname{diag}(a_1,\cdots,a_n) =
\begin{bmatrix}
a_1&&\\
&\ddots&\\
&&a_n
\end{bmatrix}
A = diag ( a 1 , ⋯ , a n ) = a 1 ⋱ a n
通常对角线以外的零元素省略不写。易证,对角矩阵的特征值就是对角线上的元素 。此外,对角矩阵的行列式值为对角线上的元素乘积 ,因此当且仅当对角线上元素全不为0 0 0 时矩阵是非奇异的 。非奇异对角矩阵的逆矩阵非常简单,是
A − 1 = [ 1 a 1 ⋱ 1 a n ] \bm{A}^{-1} = \begin{bmatrix}
\tfrac{1}{a_1} &&\\
&\ddots&\\
&&\tfrac{1}{a_n}
\end{bmatrix}
A − 1 = a 1 1 ⋱ a n 1
4.5 三角矩阵
三角矩阵(triangular matrix)是指所有在对角线之上或之下的元素都为零的方阵。特别地,上三角矩阵(upper-triangular matrix)为
A = [ a 11 ⋯ a 1 n ⋱ ⋮ a n n ] A=
\begin{bmatrix}
a_{11} & \cdots & a_{1n} \\
& \ddots & \vdots \\
& & a_{nn}
\end{bmatrix}
A = a 11 ⋯ ⋱ a 1 n ⋮ a nn
下三角矩阵(lower-triangular matrix)为
A = [ a 11 ⋮ ⋱ a n 1 ⋯ a n n ] A=\begin{bmatrix}
a_{11}&& \\
\vdots & \ddots & \\
a_{n1} & \cdots & a_{nn}
\end{bmatrix}
A = a 11 ⋮ a n 1 ⋱ ⋯ a nn
与对角矩阵类似,三角矩阵的特征值是对角线上的元素 ,并且行列式值为对角线上的元素乘积 。两个上(resp. 下)三角矩阵的乘积仍然是上(resp. 下)三角矩阵。非奇异上(resp. 下)三角矩阵的逆矩阵仍然是上(resp. 下)三角矩阵
4.6 正交矩阵
正交矩阵(orthogonal matrix)是列向量能够组成R n \mathbb{R} ^n R n 空间中的标准正交基的方阵,所以对正交矩阵U = [ u 1 ⋯ u n ] \bm{U}=[\bm{u}_1\cdots \bm{u}_n] U = [ u 1 ⋯ u n ] 有
u i ⊤ u j = { 1 i f i = j , 0 o t h e r w i s e . \bm{u}_i^\top \bm{u}_j = \left\{
\begin{array}
{ll}1 & \mathrm{if}\quad i=j, \\
0 & \mathrm{otherwise}.
\end{array}\right.
u i ⊤ u j = { 1 0 if i = j , otherwise .
因此U ⊤ U = U U ⊤ = I n \bm{U}^\top \bm{U} = \bm{U} \bm{U}^\top = \bm{I}_n U ⊤ U = U U ⊤ = I n ,还可以得到U ⊤ = U − 1 \bm{U}^\top = \bm{U}^{-1} U ⊤ = U − 1 。正交矩阵保持长度和角度。对于任意向量x \bm{x} x
∥ U x ∥ 2 2 = ( U x ) ⊤ ( U x ) = x ⊤ U ⊤ U x = x ⊤ x = ∥ x ∥ 2 2 \lVert \bm{Ux} \rVert_2^2 = (\bm{Ux})^\top(\bm{Ux}) = \bm{x}^\top \bm{U}^\top \bm{Ux} = \bm{x}^\top \bm{x} = \lVert \bm{x} \rVert_2^2
∥ Ux ∥ 2 2 = ( Ux ) ⊤ ( Ux ) = x ⊤ U ⊤ Ux = x ⊤ x = ∥ x ∥ 2 2
因此,x → U x \bm{x} \rightarrow \bm{Ux} x → Ux 保持长度不变。此外,正交映射还保持角度不变:如果x , y \bm{x},\bm{y} x , y 是两个单位范数向量,则它们之间的角度θ \theta θ 满足cos θ = x ⊤ y \cos \theta = \bm{x}^\top \bm{y} cos θ = x ⊤ y ,而旋转后的向量x ′ = U x \bm{x}^\prime=\bm{Ux} x ′ = Ux 、y ′ = U y \bm{y}^\prime=\bm{Uy} y ′ = Uy 之间的角度θ ′ \theta ^\prime θ ′ 满足cos θ ′ = ( x ′ ) ⊤ y ′ = x ⊤ y \cos \theta ^\prime=(\bm{x}^\prime )^\top y^\prime = \bm{x}^\top \bm{y} cos θ ′ = ( x ′ ) ⊤ y ′ = x ⊤ y ,因此旋转前后两个向量的夹角是相同的。反之亦然:任何保持长度和夹角不变的方阵都是正交的。此外,一个矩阵在前后分别乘以正交矩阵不会改变Frobenius范数(以及在Section 3.6.3正式定义的L 2 L_2 L 2 诱导范数)
∥ U A V ∥ F = ∥ A ∥ F \lVert \bm{UAV} \rVert_F = \lVert \bm{A} \rVert_F
∥ UAV ∥ F = ∥ A ∥ F
矩阵可以看成对直线的旋转,而正交矩阵可以写成三角函数形式
U ( θ ) = [ cos θ − sin θ sin θ cos θ ] \bm{U}(\theta) = \begin{bmatrix}
\cos \theta & -\sin \theta \\
\sin \theta & \cos \theta
\end{bmatrix}
U ( θ ) = [ cos θ sin θ − sin θ cos θ ]
这个矩阵看成角度θ \theta θ 的逆时针旋转
4.7 并矢
如果矩阵A ∈ R m , n \bm{A} \in \mathbb{R} ^{m,n} A ∈ R m , n 可以表示为A = u v ⊤ \bm{A} = \bm{uv}^\top A = uv ⊤ 的形式,其中u ∈ R m \bm{u} \in \mathbb{R} ^m u ∈ R m 且v ∈ R n \bm{v} \in \mathbb{R} ^n v ∈ R n ,则称A \bm{A} A 为并矢(dyad)。如果u \bm{u} u 和v \bm{v} v 的维度相同,则A \bm{A} A 是方阵。二次型作用于输入向量 x ∈ Rn 的方式如下:
并矢的每一行(resp. 每一列)都是v \bm{v} v (resp. u \bm{u} u )的缩放版本,缩放的系数由向量u \bm{u} u (resp. v \bm{v} v )给出。而矩阵与向量的乘积可以看成对矩阵列元素的线性组合。综上,并矢与向量的乘积可以看成对u \bm{u} u 的缩放
A x = ( u v ⊤ ) x = ( v ⊤ x ) u \bm{Ax} = (\bm{uv}^\top )\bm{x}=(\bm{v}^\top \bm{x})\bm{u}
Ax = ( uv ⊤ ) x = ( v ⊤ x ) u
并矢与向量的乘积输出总是指向相同的方向u \bm{u} u ,无论输入x \bm{x} x 是什么。因此输出总是u \bm{u} u 的一个简单缩放版本。缩放的量取决于v ⊤ x \bm{v}^\top \bm{x} v ⊤ x
如果u \bm{u} u 和v \bm{v} v 都非零,则并矢的秩为一,因为它的值域是由u \bm{u} u 生成的直线。一个方形并矢只有一个非零特征值λ = v ⊤ u \lambda = \bm{v}^\top\bm{u} λ = v ⊤ u ,对应的特征向量为u \bm{u} u 。我们总可以对并矢进行归一化:
A = u v ⊤ = ( ∥ u ∥ 2 ∥ v ∥ 2 ) u ∥ u ∥ 2 v ⊤ ∥ v ∥ 2 = σ u ~ v ~ ⊤ \bm{A} = \bm{uv}^\top = (\lVert \bm{u} \rVert_2 \lVert \bm{v} \rVert_2) \frac{\bm{u}}{\lVert \bm{u} \rVert_2} \frac{\bm{v}^\top }{\lVert \bm{v} \rVert_2} = \sigma \tilde{\bm{u}} \tilde{\bm{v}}^\top
A = uv ⊤ = (∥ u ∥ 2 ∥ v ∥ 2 ) ∥ u ∥ 2 u ∥ v ∥ 2 v ⊤ = σ u ~ v ~ ⊤
其中σ \sigma σ 为两个向量的范数乘积,∥ u ~ ∥ 2 = ∥ v ~ ∥ 2 = 1 \lVert \tilde{\bm{u}} \rVert_2 = \lVert \tilde{\bm{v}} \rVert_2 = 1 ∥ u ~ ∥ 2 = ∥ v ~ ∥ 2 = 1
4.8 块结构矩阵
任何矩阵都能被划分为块或子矩阵
A = [ A 11 A 12 A 21 A 22 ] \bm{A} = \begin{bmatrix}
\bm{A}_{11} & \bm{A}_{12}\\
\bm{A}_{21} & \bm{A}_{22}
\end{bmatrix}
A = [ A 11 A 21 A 12 A 22 ]
当A \bm{A} A 为方阵,且A 12 = 0 , A 21 = 0 \bm{A}_{12} = \bm{0},\bm{A}_{21} = \bm{0} A 12 = 0 , A 21 = 0 (这里的0 \bm{0} 0 指的是维度合适的全零矩阵块)时,A \bm{A} A 称为块对角矩阵
A = [ A 11 0 0 A 22 ] \bm{A} = \begin{bmatrix}
\bm{A}_{11} & \bm{0}\\
\bm{0} & \bm{A}_{22}
\end{bmatrix}
A = [ A 11 0 0 A 22 ]
矩阵A \bm{A} A 的特征值集合λ ( A ) \lambda (\bm{A}) λ ( A ) 是A 11 \bm{A}_{11} A 11 和A 22 \bm{A}_{22} A 22 的特征值集合的并集
λ ( A ) = λ ( A 11 ) ∪ λ ( A 22 ) , A is block diagonal \lambda (\bm{A}) = \lambda (\bm{A}_{11}) \cup \lambda (\bm{A}_{22}),\bm{A} \text{ is block diagonal}
λ ( A ) = λ ( A 11 ) ∪ λ ( A 22 ) , A is block diagonal
此外,当且仅当对角块可逆时块对角矩阵整体可逆,并且有
[ A 11 0 0 A 22 ] − 1 = [ A 11 − 1 0 0 A 22 − 1 ] \begin{bmatrix}
\bm{A}_{11} & \bm{0}\\
\bm{0} & \bm{A}_{22}
\end{bmatrix}^{-1}
=
\begin{bmatrix}
\bm{A}_{11}^{-1} & \bm{0}\\
\bm{0} & \bm{A}_{22}^{-1}
\end{bmatrix}
[ A 11 0 0 A 22 ] − 1 = [ A 11 − 1 0 0 A 22 − 1 ]
如果矩阵A \bm{A} A 为方阵,且A 21 = 0 \bm{A}_{21} = \bm{0} A 21 = 0 ,则称其为分块上三角矩阵;如果A 12 = 0 \bm{A}_{12} = \bm{0} A 12 = 0 ,则称其为分块下三角矩阵
A = [ A 11 0 A 21 A 22 ] , block lower triangular A = [ A 11 A 12 0 A 22 ] , block upper triangular \begin{gather*}
\bm{A} = \begin{bmatrix}
\bm{A}_{11} & \bm{0}\\
\bm{A}_{21} & \bm{A}_{22}
\end{bmatrix},\text{block lower triangular} \\
\bm{A} = \begin{bmatrix}
\bm{A}_{11} & \bm{A}_{12}\\
\bm{0} & \bm{A}_{22}
\end{bmatrix},\text{block upper triangular}
\end{gather*}
A = [ A 11 A 21 0 A 22 ] , block lower triangular A = [ A 11 0 A 12 A 22 ] , block upper triangular
同样,对于分块三角矩阵,A \bm{A} A 的特征值是对角块特征值的并集,即
λ ( A ) = λ ( A 11 ) ∪ λ ( A 22 ) , A is block triangular \lambda (\bm{A}) = \lambda (\bm{A}_{11}) \cup \lambda (\bm{A}_{22}),\bm{A} \text{ is block triangular}
λ ( A ) = λ ( A 11 ) ∪ λ ( A 22 ) , A is block triangular
非奇异块三角矩阵的逆可以表示如下
[ A 11 0 A 21 A 22 ] − 1 = [ A 11 − 1 0 − A 22 − 1 A 21 A 11 − 1 A 22 − 1 ] [ A 11 A 12 0 A 22 ] − 1 = [ A 11 − 1 − A 11 − 1 A 12 A 22 − 1 0 A 22 − 1 ] \begin{gather*}
\begin{bmatrix}
\bm{A}_{11} & \bm{0} \\
\bm{A}_{21} & \bm{A}_{22}
\end{bmatrix}^{-1}
=
\begin{bmatrix}
\bm{A}_{11}^{-1} & \bm{0} \\
-\bm{A}_{22}^{-1}\bm{A}_{21}\bm{A}_{11}^{-1} & \bm{A}_{22}^{-1}
\end{bmatrix} \\
\begin{bmatrix}
\bm{A}_{11} & \bm{A}_{12} \\
\bm{0} & \bm{A}_{22}
\end{bmatrix}^{-1}
=
\begin{bmatrix}
\bm{A}_{11}^{-1} & -\bm{A}_{11}^{-1}\bm{A}_{12}\bm{A}_{22}^{-1} \\
\bm{0} & \bm{A}_{22}^{-1}
\end{bmatrix}
\end{gather*}
[ A 11 A 21 0 A 22 ] − 1 = [ A 11 − 1 − A 22 − 1 A 21 A 11 − 1 0 A 22 − 1 ] [ A 11 0 A 12 A 22 ] − 1 = [ A 11 − 1 0 − A 11 − 1 A 12 A 22 − 1 A 22 − 1 ]
这两个公式都可以通过直接验证A A − 1 = I \bm{A} \bm{A}^{-1} = \bm{I} A A − 1 = I 和A − 1 A = I \bm{A}^{-1} \bm{A} = \bm{I} A − 1 A = I 来证明。对于非奇异全块矩阵的逆,也存在两个等效的公式。定义
S 1 ≔ A 11 − A 12 A 22 − 1 A 21 S 2 ≔ A 22 − A 21 A 11 − 1 A 12 \begin{gather*}
\bm{S}_1 \coloneqq \bm{A}_{11}-\bm{A}_{12}\bm{A}_{22}^{-1}\bm{A}_{21} \\
\bm{S}_2 \coloneqq \bm{A}_{22}-\bm{A}_{21}\bm{A}_{11}^{-1}\bm{A}_{12}
\end{gather*}
S 1 : = A 11 − A 12 A 22 − 1 A 21 S 2 : = A 22 − A 21 A 11 − 1 A 12
那么
[ A 11 A 12 A 21 A 22 ] − 1 = [ S 1 − 1 − A 11 − 1 A 12 S 2 − 1 − A 22 − 1 A 21 S 1 − 1 S 2 − 1 ] = [ S 1 − 1 − S 1 − 1 A 12 A 22 − 1 − S 2 − 1 A 21 A 11 − 1 S 2 − 1 ] \begin{align*}
\begin{bmatrix}
\bm{A}_{11} & \bm{A}_{12} \\
\bm{A}_{21} & \bm{A}_{22}
\end{bmatrix}
^{-1}
&=
\begin{bmatrix}
\bm{S}_{1}^{-1} & -\bm{A}_{11}^{-1}\bm{A}_{12}\bm{S}_{2}^{-1} \\
-\bm{A}_{22}^{-1}\bm{A}_{21}\bm{S}_{1}^{-1} & \bm{S}_{2}^{-1}
\end{bmatrix} \\
&=
\begin{bmatrix}
\bm{S}_{1}^{-1} & -\bm{S}_{1}^{-1}\bm{A}_{12}\bm{A}_{22}^{-1} \\
-\bm{S}_{2}^{-1}\bm{A}_{21}\bm{A}_{11}^{-1} & \bm{S}_{2}^{-1}
\end{bmatrix}
\end{align*}
[ A 11 A 21 A 12 A 22 ] − 1 = [ S 1 − 1 − A 22 − 1 A 21 S 1 − 1 − A 11 − 1 A 12 S 2 − 1 S 2 − 1 ] = [ S 1 − 1 − S 2 − 1 A 21 A 11 − 1 − S 1 − 1 A 12 A 22 − 1 S 2 − 1 ]
可以通过使用一个方便的矩阵恒等式(称为矩阵求逆引理(matrix inversion lemma)或Woodbury公式)展开S 1 \bm{S}_{1} S 1 和S 2 \bm{S}_{2} S 2 块的逆,从而得到进一步等价的表达式
( A 11 − A 12 A 22 − 1 A 21 ) − 1 = A 11 − 1 + A 11 − 1 A 12 ( A 22 − A 21 A 11 − 1 A 12 ) − 1 A 21 A 11 − 1 . \left( \bm{A}_{11} - \bm{A}_{12}\bm{A}_{22}^{-1}\bm{A}_{21} \right)^{-1}
=
\bm{A}_{11}^{-1} + \bm{A}_{11}^{-1}\bm{A}_{12}\left( \bm{A}_{22} - \bm{A}_{21}\bm{A}_{11}^{-1}\bm{A}_{12} \right)^{-1}\bm{A}_{21}\bm{A}_{11}^{-1}.
( A 11 − A 12 A 22 − 1 A 21 ) − 1 = A 11 − 1 + A 11 − 1 A 12 ( A 22 − A 21 A 11 − 1 A 12 ) − 1 A 21 A 11 − 1 .
4.9 秩一扰动
当A 12 \bm{A}_{12} A 12 和A 21 \bm{A}_{21} A 21 是向量时,即将一个秩为一的矩阵(即并矢)加到A 11 \bm{A}_{11} A 11 上,上述方程会出现一个特殊情况。具体来说,对于A 12 = u ∈ R n , A 21 ⊤ = v ∈ R n \bm{A}_{12} = \bm{u} \in \mathbb{R} ^n,\bm{A}_{21}^\top = \bm{v} \in \mathbb{R} ^n A 12 = u ∈ R n , A 21 ⊤ = v ∈ R n 并且A 22 = − 1 \bm{A}_{22} = -1 A 22 = − 1 ,上述公式变为
( A 11 + u v ⊤ ) − 1 = A 11 − 1 − A 11 − 1 u v ⊤ A 11 − 1 1 + v ⊤ A 11 − 1 u (\bm{A}_{11} + \bm{u}\bm{v}^\top)^{-1} = \bm{A}_{11}^{-1} - \frac{\bm{A}_{11}^{-1}\bm{u}\bm{v}^\top \bm{A}_{11}^{-1}}{1+\bm{v}^\top \bm{A}_{11}^{-1} \bm{u}}
( A 11 + u v ⊤ ) − 1 = A 11 − 1 − 1 + v ⊤ A 11 − 1 u A 11 − 1 u v ⊤ A 11 − 1
这个公式使我们能够基于A 11 \bm{A}_{11} A 11 本身的逆,轻松计算 A 11 \bm{A}_{11} A 11 的秩一扰动的逆
另一个有趣的性质是,秩一的扰动无法使矩阵的秩改变超过一个单位
引理3.1(秩一扰动的秩) :设A ∈ R m , n \bm{A} \in \mathbb{R} ^{m,n} A ∈ R m , n 且q ∈ R m , p ∈ R n \bm{q} \in \mathbb{R} ^m, \bm{p}\in \mathbb{R} ^n q ∈ R m , p ∈ R n
∣ rank ( A ) − rank ( A + q p ⊤ ) ∣ ≤ 1 \lvert \operatorname{rank} (\bm{A}) - \operatorname{rank} (\bm{A}+\bm{q} \bm{p}^\top ) \rvert \leq 1
∣ rank ( A ) − rank ( A + q p ⊤ )∣ ≤ 1
证明
我们接下来展示rank ( A ) ≤ rank ( A + q p ⊤ ) + 1 \operatorname{rank} (\bm{A}) \leq \operatorname{rank} (\bm{A}+\bm{q} \bm{p}^\top ) +1 rank ( A ) ≤ rank ( A + q p ⊤ ) + 1 ;对称条件rank ( A + q p ⊤ ) ≤ rank ( A ) + 1 \operatorname{rank} (\bm{A}+\bm{q} \bm{p}^\top ) \leq \operatorname{rank} (\bm{A}) +1 rank ( A + q p ⊤ ) ≤ rank ( A ) + 1 可以通过相同的论证方法证明,只需交换A \bm{A} A 和A + q p ⊤ \bm{A}+\bm{q} \bm{p}^\top A + q p ⊤ 矩阵的角色。由于秩与矩阵的值域子空间的维度相同,我们需要证明的是
dim R ( A ) ≤ dim R ( A + q p ⊤ ) + 1 \dim \mathcal{R}(\bm{A}) \leq \dim \mathcal{R}(\bm{A}+\bm{q} \bm{p}^\top ) +1
dim R ( A ) ≤ dim R ( A + q p ⊤ ) + 1
根据线性代数基本定理,dim R ( A ) + dim N ( A ⊤ ) = m \dim \mathcal{R}(\bm{A}) + \dim \mathcal{N}(\bm{A}^\top ) = m dim R ( A ) + dim N ( A ⊤ ) = m ,前述条件也等价于
dim N ( A ⊤ + p q ⊤ ) ≤ dim N ( A ⊤ ) + 1 \dim \mathcal{N}(\bm{A}^\top +\bm{p} \bm{q}^\top) \leq \dim \mathcal{N}(\bm{A}^\top )+1
dim N ( A ⊤ + p q ⊤ ) ≤ dim N ( A ⊤ ) + 1
我们通过反证法证明上式:设v ≔ dim N ( A ⊤ ) v \coloneqq \dim \mathcal{N}(\bm{A}^\top) v : = dim N ( A ⊤ ) ,并为达到反证的目的,假设
dim N ( A ⊤ + p q ⊤ ) > v + 1 \dim \mathcal{N}(\bm{A}^\top +\bm{p} \bm{q}^\top) > v+1
dim N ( A ⊤ + p q ⊤ ) > v + 1
那么将存在v + 2 v+2 v + 2 个线性无关的向量v 1 , ⋯ , v v + 2 \bm{v}_1,\cdots ,\bm{v}_{v+2} v 1 , ⋯ , v v + 2 ,它们都属于A ⊤ + p q ⊤ \bm{A}^\top +\bm{p} \bm{q}^\top A ⊤ + p q ⊤ 的零空间,即( A ⊤ + p q ⊤ ) v i = 0 , i = 1 , ⋯ , v + 2 (\bm{A}^\top +\bm{p} \bm{q}^\top) \bm{v}_i = \bm{0},i=1,\cdots ,v+2 ( A ⊤ + p q ⊤ ) v i = 0 , i = 1 , ⋯ , v + 2 ,这意味着
A ⊤ v i = − α i p , α i ≔ q ⊤ v i , i = 1 , ⋯ , v + 2 \bm{A}^\top \bm{v}_i = - \alpha _i \bm{p} , \alpha _i \coloneqq \bm{q}^\top \bm{v}_i , i=1,\cdots ,v+2
A ⊤ v i = − α i p , α i : = q ⊤ v i , i = 1 , ⋯ , v + 2
现在,至少有一个标量α i \alpha _i α i 必须非零,否则对于i = 1 , ⋯ , v + 2 i=1,\cdots ,v+2 i = 1 , ⋯ , v + 2 会有A ⊤ v i = 0 \bm{A}^\top \bm{v}_i = \bm{0} A ⊤ v i = 0 ,这将与dim N ( A ⊤ ) = v \dim \mathcal{N}(\bm{A}^\top) = v dim N ( A ⊤ ) = v 的事实矛盾,从而结果将立即得到证明。然后讨论至少有一个标量α i \alpha _i α i 非零的情况。假设不失一般性,α 1 ≠ 0 \alpha _1 \neq 0 α 1 = 0 ,并定义向量w i = v i + 1 − ( α i + 1 / α 1 ) v 1 , i = 1 , ⋯ , v + 1 \bm{w}_i = \bm{v}_{i+1} - ( \alpha_{i+1}/\alpha_1 )\bm{v}_1, i = 1, \cdots, v+1 w i = v i + 1 − ( α i + 1 / α 1 ) v 1 , i = 1 , ⋯ , v + 1 。然后可以直接验证
A ⊤ w i = A ⊤ v i + 1 − α i + 1 α 1 A ⊤ v 1 = − α i + 1 p + α i + 1 p = 0 , i = 1 , ⋯ , v + 1. \bm{A}^\top \bm{w}_i = \bm{A}^\top \bm{v}_{i+1} - \frac{\alpha_{i+1}}{\alpha_1} \bm{A}^\top \bm{v}_1 = -\alpha_{i+1}\bm{p} + \alpha_{i+1}\bm{p} = \bm{0}, i = 1, \cdots, v + 1.
A ⊤ w i = A ⊤ v i + 1 − α 1 α i + 1 A ⊤ v 1 = − α i + 1 p + α i + 1 p = 0 , i = 1 , ⋯ , v + 1.
那么我们就会有v + 1 v+1 v + 1 个属于A ⊤ \bm{A}^\top A ⊤ 的零空间的线性无关向量w i \bm{w}_i w i ,这与事实相矛盾,因为dim N ( A ⊤ ) = v \dim \mathcal{N}(\bm{A}^\top) = v dim N ( A ⊤ ) = v
5. 矩阵分解
理论和数值线性代数中的很大一部分内容致力于矩阵分解问题。也就是说,给定一个矩阵 A ∈ Rm,n,将该矩阵表示为具有特殊结构的两个或多个矩阵的乘积。通常,一旦矩阵适当分解,就可以方便地得到若干感兴趣的数值,后续计算也会大大简化。例如,已知任何方阵 A 都可以表示为一个正交矩阵与一个三角矩阵的乘积,即 A = QR,其中 Q 是正交矩阵,R 是上三角矩阵。一旦获得这种分解,我们就可以立即评估 A 的秩,这仅仅是 R 对角线上非零元素的数量。同样,我们也可以方便地求解类似 Ax = b 类型的线性方程组中的未知向量 x,这将在第 6.4.4.1 节中进一步讨论。从矩阵 A 定义的线性映射来看,分解可以解释为将该映射分解为一系列连续阶段的过程,例如见图 3.12。
5.1 正交—三角分解(Orthogonal-triangular decomposition)(Q R \bm{Q} \bm{R} Q R )
任何方阵A ∈ R n , n \bm{A} \in \mathbb{R} ^{n,n} A ∈ R n , n 都可以分解为
A = Q R \bm{A} = \bm{Q} \bm{R}
A = Q R
其中Q \bm{Q} Q 是一个正交矩阵,R \bm{R} R 是一个上三角矩阵。若A \bm{A} A 是非奇异矩阵,则当要求R \bm{R} R 的对角元素为正数时,分解因子Q , R \bm{Q},\bm{R} Q , R 是唯一确定的
如果A ∈ R m , n \bm{A} \in \mathbb{R}^{m,n} A ∈ R m , n 是矩形的,且m ≥ n m \geq n m ≥ n ,若矩阵A \bm{A} A 满秩,可以分解为
A = Q R \bm{A} = \bm{Q} \bm{R}
A = Q R
其中Q ∈ R m , n \bm{Q} \in \mathbb{R} ^{m,n} Q ∈ R m , n 有正交列,R ∈ R n , n \bm{R} \in \mathbb{R} ^{n,n} R ∈ R n , n 是上三角的
Q R \bm{Q} \bm{R} Q R 分解的另一种完整形式使用Q \bm{Q} Q 矩阵中的所有m m m 列:在q ( 1 ) ⋯ q ( n ) \bm{q}^{(1)}\cdots \bm{q}^{(n)} q ( 1 ) ⋯ q ( n ) 的基础上添加m − n m-n m − n 个正交列,以完成R m \mathbb{R} ^m R m 的一组正交基
A = Q [ R 1 0 m − n , n ] \bm{A} = \bm{Q}
\begin{bmatrix}
\bm{R}_1 \\
\bm{0}_{m-n,n}
\end{bmatrix}
A = Q [ R 1 0 m − n , n ]
其中Q ∈ R m , m \bm{Q} \in \mathbb{R} ^{m,m} Q ∈ R m , m 是正交的,R 1 ∈ R n , n \bm{R}_1 \in \mathbb{R} ^{n,n} R 1 ∈ R n , n 是上三角的
若矩阵A \bm{A} A 非满秩,可以分解为
A = Q R , R = [ R 11 R 12 ⋯ R 1 r 0 R 22 ⋯ R 2 r ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ R r r ] \bm{A} = \bm{Q} \bm{R} , \bm{R} =
\begin{bmatrix}
\bm{R}_{11} & \bm{R}_{12} & \cdots & \bm{R}_{1r} \\
\bm{0} & \bm{R}_{22} & \cdots & \bm{R}_{2r} \\
\vdots & \vdots & \ddots & \vdots \\
\bm{0} & \bm{0} & \cdots & \bm{R}_{rr} \\
\end{bmatrix}
A = Q R , R = R 11 0 ⋮ 0 R 12 R 22 ⋮ 0 ⋯ ⋯ ⋱ ⋯ R 1 r R 2 r ⋮ R rr
其中Q ∈ R m , r , r = rank ( A ) \bm{Q} \in \mathbb{R} ^{m,r},r = \operatorname{rank}(\bm{A}) Q ∈ R m , r , r = rank ( A ) ,R ∈ R r , n \bm{R} \in \mathbb{R} ^{r,n} R ∈ R r , n 是分块上三角矩阵
Q R \bm{Q} \bm{R} Q R 分解在Section 7.3 节中有详细讨论,具体应用在Section 6.4.4.1 节中有详细讨论
5.2 奇异值分解(Singular value decomposition,SVD)
任何非零的A ∈ R m , n \bm{A} \in \mathbb{R} ^{m,n} A ∈ R m , n 都可以分解为
A = U Σ ~ V ⊤ \bm{A}= \bm{U} \tilde{\bm{\Sigma}} \bm{V}^\top
A = U Σ ~ V ⊤
其中V ∈ R n , n , U ∈ R m , m \bm{V} \in \mathbb{R} ^{n,n},\bm{U} \in \mathbb{R} ^{m,m} V ∈ R n , n , U ∈ R m , m 是正交矩阵,且
Σ ~ = [ Σ 0 r , n − r 0 m − r , r 0 m − r , n − r ] , Σ = diag ( σ 1 , ⋯ , σ r ) \tilde{\bm{\Sigma}} =
\begin{bmatrix}
\Sigma & \bm{0}_{r,n-r} \\
\bm{0}_{m-r,r} & \bm{0}_{m-r,n-r}
\end{bmatrix}
, \Sigma = \operatorname{diag}(\sigma _1 ,\cdots ,\sigma _r)
Σ ~ = [ Σ 0 m − r , r 0 r , n − r 0 m − r , n − r ] , Σ = diag ( σ 1 , ⋯ , σ r )
其中r r r 是A \bm{A} A 的秩,标量σ i > 0 , i = 1 , ⋯ , r \sigma _i > 0, i =1,\cdots ,r σ i > 0 , i = 1 , ⋯ , r 被称为A \bm{A} A 的奇异值。U \bm{U} U 的前r r r 列u 1 , ⋯ , u r \bm{u}_1,\cdots ,\bm{u}_r u 1 , ⋯ , u r (或者V \bm{V} V 的v 1 , ⋯ , v r \bm{v}_1,\cdots ,\bm{v}_r v 1 , ⋯ , v r )被称为左(或者右)奇异向量,并满足
A v i = σ i u i A ⊤ u i = σ i v i \begin{gather*}
\bm{A} \bm{v}_i = \sigma _i \bm{u}_i \\
\bm{A}^\top \bm{u}_i = \sigma _i \bm{v}_i
\end{gather*}
A v i = σ i u i A ⊤ u i = σ i v i
其中i = 1 , ⋯ , r i=1,\cdots,r i = 1 , ⋯ , r 。奇异值分解(SVD)是数值线性代数中的一个基本分解,因为它揭示了由矩阵A \bm{A} A 描述的线性映射的所有相关信息,例如值域、零空间和秩。SVD 在Section 5.1 节中有详细讨论
5.3 可对角化矩阵的特征值分解(Eigenvalue decomposition)
一个可对角化的方阵A ∈ R n , n \bm{A} \in \mathbb{R} ^{n,n} A ∈ R n , n 可以分解为
A = U Λ U − 1 \bm{A} = \bm{U} \bm{\Lambda} \bm{U}^{-1}
A = U Λ U − 1
其中U ∈ C n , n \bm{U} \in \mathbb{C} ^{n,n} U ∈ C n , n 是一个可逆矩阵,其列包含A \bm{A} A 的特征向量,Λ \bm{\Lambda} Λ 是一个对角矩阵,其对角线包含A \bm{A} A 的特征值λ 1 , ⋯ , λ n \lambda _1,\cdots ,\lambda _n λ 1 , ⋯ , λ n 。对于一般矩阵,这些特征值可以是实数或复数,复数特征值成共轭复数对出现(Section见第3.3.6节)。U \bm{U} U 的列u 1 , ⋯ , u n \bm{u}_1,\cdots ,\bm{u}_n u 1 , ⋯ , u n 称为A \bm{A} A 的特征向量,并满足
A u i = λ i u i , i = 1 , ⋯ , n \bm{A} \bm{u}_i = \lambda _i \bm{u}_i,i=1,\cdots,n
A u i = λ i u i , i = 1 , ⋯ , n
实际上,这些关系可以紧凑地写成A U = Λ U \bm{A} \bm{U} = \bm{\Lambda} \bm{U} A U = Λ U ,这等价于A = U Λ U − 1 \bm{A} = \bm{U} \bm{\Lambda} \bm{U}^{-1} A = U Λ U − 1
5.4 对称矩阵的谱分解(Spectral decomposition)