1. 基础
1.1 定义和例子
当方阵A∈Rn,n满足A=A⊤的时候则称这个矩阵为对称(symmetric)矩阵。n×n的对称矩阵组成的集合是Rn,n的子空间,记作Sn
样本协方差矩阵(sample covariance matrix)是对称矩阵,给定m个点x(1),⋯,x(m)∈Rn,则样本协方差矩阵写为
Σ:=m1i=1∑m(x(i)−x^)(x(i)−x^)⊤
其中x^是点的样本均值
x^:=m1i=1∑mx(i)
协方差矩阵Σ很明显是一个对称矩阵,当计算标量积(scalar product)的样本方差(sample variance)时会出现。比如定义si:=w⊤x(i),i=1,⋯,m,那么向量x的样本均值为
s^=m1(s1+⋯+sm)=w⊤x^
样本方差为
σ2=i=1∑m(w⊤x(i)−s^)2=i=1∑m(w⊤(x(i)−x^))2=w⊤Σw
一个二阶可微的函数f:Rn→R在点x∈domf处的海森(Hessian)矩阵是包含该点函数二阶导数的矩阵。海森矩阵的元素为
Hij=∂xi∂xj∂2f(x),1≤i,j≤n
海森矩阵也经常写为∇2f(x)。由于二阶导数与求导的顺序无关,因此对于每一对(i,j),都有Hij=Hji,因此海森矩阵总是对称矩阵
考虑一个二次函数(quadratic function)(多项式函数的单项最高次数为二)
q(x)=x12+2x1x2+3x22+4x1+5x2+6
它的海森矩阵可以写为
H=[∂xi∂xj∂2q(x)]1≤i,j≤2=∂x12∂2q(x)∂x2x1∂2q(x)∂x1∂x1∂2q(x)∂x22∂2q(x)=[2226]
对于二次函数来说,海森矩阵是一个常数,与x点的取值无关。函数q(x)的二次项也可以写为
x12+2x1x2+3x22=21x⊤Hx
因此二次函数可以写为包含海森矩阵的二次项和仿射项的和
q(x)=21x⊤Hx+c⊤x+d,c⊤=[45],d=6
考虑指数之和的对数函数(log-sum-exp) lse:Rn→R
lse(x)=lni=1∑nexi
首先定义z=[ex1⋯exn],Z=∑i=1nzi,那么我们可以确定x点处的梯度∇lse(x)=[∂x1∂f(x)⋯∂xn∂f(x)]⊤,定义gi(x)为梯度的第i项
∇lse(x)=Z1z
gi(x)=∂xi∂f(x)=∂zi∂lnZ∂xi∂zi=Zzi
再次求梯度
∂xi∂gi(x)=Zzi−Z2zi2
对于i=j
∂xj∂gi(x)=−Z2zizj
因此
∇2lse(x)=[Z2Zz1−z12Z2−z2z1Z2−z1z2Z2Zz2−z22]=Z21(Zdiag(z)−zz⊤)
假设给出d个线性无关的向量x(1),⋯,x(d)∈Rn和另一个向量x∈R,我们计算x向x(1),⋯,x(d)张成子空间的投影x∗,根据Section 2.3.2.3,投影可以写为
x∗=i=1∑dαix(i)=Xα,X=[x(1),⋯,x(d)]
其中α是一个系数向量,必须满足⟨x,x(k)⟩=⟨x∗,x(k)⟩,可以写为所谓的Gram线性方程
x(1)⊤x(1)⋮x(d)⊤x(1)⋯⋱⋯x(1)⊤x(d)⋮x(d)⊤x(d)α1⋮αd=x(1)⊤x⋮x(d)⊤x
左侧的系数矩阵是一个对称矩阵,被称为Gram矩阵,满足G=X⊤X∈Sn
1.2 二次函数
二次函数q:R→R是关于x的二阶多元多项式,包含所有不超过二次的单项式的线性组合的函数。因此,这样的函数可以表示为
q(x)=i=1∑nj=1∑naijxixj+i=1∑ncixi+d
其中aij是二次单项式的系数,ci是一次项单项式的系数,d是常数项,上面表达式在矩阵形式下有更加紧凑的表达
q(x)=x⊤Ax+c⊤x+d
注意,x⊤Ax是标量,所以它等于自身的转置,即x⊤Ax=x⊤A⊤x,因此
x⊤Ax=21x⊤(A+A⊤)x
其中H=A+A⊤是一个对称矩阵,更一般的表达可以写为
q(x)=21x⊤Hx+c⊤x+d=21[x1]⊤[Hc⊤c2d][x1]
二次型(quadratic form)是没有线性项和常数项的二次函数
q(x)=21x⊤Hx,H∈Sn
注意二次函数的海森矩阵是常数,∇2q(x)=H
一个一般的、二阶可微的函数可以通过泰勒级数展开,在点x0的邻域内用一个二次函数进行局部近似,详见第Section3.2.2
f(x)≈q(x)=f(x0)+∇f(x0)⊤(x−x0)+21(x−x0)⊤∇2f(x0)(x−x0)
通过参数替换可以将上式写成标准的二次函数形式
有两种特殊情况:对角矩阵和并矢矩阵。对角矩阵是对称矩阵的一种特殊形式,与对角矩阵diag(a)相关的二次项为
q(x)=x⊤diag(a)x=i=1∑naixi2
也就是说,q(x)是纯平方的线性组合。即在和中不出现 xixj类型的交叉乘积项
另一类重要的对称矩阵是对称并矢矩阵,即由以下形式的向量积形成的矩阵
A=aa⊤=a12a2a1⋮ana1a1a2a22⋮⋯⋯⋯⋱⋯a1ana2an⋮an2
并矢是秩为一的矩阵,与并矢相关的二次型具有如下形式
q(x)=x⊤aa⊤x=(x⊤a)(a⊤x)=(a⊤x)(a⊤x)=(a⊤x)2
也就是说,它是关于x的线性形式的平方。因此,与一个并矢相关的二次型总是非负的
2. 谱定理(The spectral theorem)
矩阵的谱,指矩阵所有特征值的集合
2.1 对称矩阵的特征值分解
我们回顾一下Section3.3中方阵特征值和特征向量的定义。设A为一个n×n矩阵。如果存在一个非零向量u使得
Au=λu
向量u被称为与特征值λ相关的特征向量。如果∥u∥2=1,那么特征向量被称为已归一化。在这种情况下,我们可以得到u†Au=λu†u=λ。这里的†代表厄米共轭(Hermitian conjugate),即先转置再取共轭
u的解释是它定义了一个方向,在此方向上,由A定义的线性映射表现得就像标量乘法一样。缩放的量由λ给出
A的特征值是特征多项式的根
pA(λ)=det(λI−A)
因此对于一般的矩阵,特征值可以是实数或复数(以复共轭对出现),同样,相应的特征向量可以是实数或复数。然而,对于对称矩阵来说,特征值和特征向量均为实数。而且对于每个不同的特征值λi,特征空间ϕi=N(λiIn−A)的维数与该特征值的代数重数相同
定理4.1(对称矩阵的特征值分解):设A∈Rn,n是对称矩阵。令λi,i=1,⋯,k≤n是A的互异特征值。进一步记μi,i=1,⋯,k,表示λi的代数重数,并记ϕi=N(λiIn−A)。那么,对所有i=1,⋯,k 有
- λi∈R
- ϕi⊥ϕj,i=j
- dimϕi=μi
证明
第一点
让λ,u为A的任意特征值和特征向量对。则
Au=λu
对两边取厄米共轭
u†A†=λ†u†
对第一个方程左乘u†,对第二个方程右乘u可以得到
u†Au=λu†uu†A†u=λ†u†u
已知u†u=∥u∥22=0,因为A为实数那么A†=A⊤,将上式相减可以得到
u†(A−A⊤)u=(λ−λ†)∥u∥22
因为A是对称矩阵,所以A−A⊤=0,可以得到
λ−λ†=0
这意味着λ一定为实数。注意,相关的特征向量u也总可以选择为实向量。如果一个复向量u满足Au=λu,且A,λ为实数,那么我们也有Re(Au)=ARe(u)=λRe(u),这意味着Re(u)是与λ相关联的特征向量
第二点
令vi∈ϕi,vj∈ϕj,i=j因为Avi=λivi,Avj=λjvj,我们可以得到
vj⊤Avi=λivj⊤vi
并且
vj⊤Avi=vi⊤A⊤vj=vi⊤Avj=λjvi⊤vj=λjvj⊤vi
将两式相减可以得到
(λi−λj)vj⊤vi=0
由于假设λi=λj,因此必须有vj⊤vi=0,即vj和vi是正交的
第三点
令λ为A的特征值,令μ≥1为它的代数重数,令v为ϕi=N(λiIn−A)的维数。一般情况下,v≤μ,也就是说,几何重数(即特征空间的维数)不大于代数重数,参见Section3.3.5
接下来我们将证明,对于对称矩阵,实际上有 ν=μ。
设B为对称的m×m矩阵,λ是B的一个特征值,u为B对应的单位范数特征向量,即Bu=λu, ∥u∥2=1。取Q为一个矩阵,其列为R(u)的正交补的正交基,因此U=[uQ]∈Rm,m,Q∈Rm,m−1是一个正交矩阵,满足U⊤U=Im。由此我们可以得到
u⊤B=λu⊤u⊤Q=Q⊤u=0
那么
U⊤BU=[λ00B1],B1=Q⊤BQ∈Sm−1
现在对A∈Sn应用此结论:因为A为对称矩阵,因此特征向量可以选择为实向量,故存在一个正交矩阵U1=[u1Q1]∈Rn,n,使得Au1=λu1,并且
U1⊤AU1=[λ00A1],A1=Q1⊤AQ1∈Sn−1
现在,如果λ=1,我们就完成了证明,因为我们找到了一个ϕ的一维子空间(这个子空间是R(u1))。如果λ≥1,那么由于U1⊤AU1矩阵具有块对角结构并且与A相似,我们可以得到λ是A1的一个特征值,重数为μ−1,参见Section2.3.5。因此,我们将相同的推理应用到对称矩阵A1∈Sn−1:存在一个正交矩阵U2=[u^2Q2]∈Rn−1,n−1,使得A1u^2=λu^2,∥u^2∥2=1
U2⊤A1U2=[λ00A2],A2=Q2⊤A1Q2∈Sn−2
接下来可以得到
u2=U1[0u^2]
是矩阵A的单位范数特征向量并且和u1正交,证明如下
Au2=U1[λ00A]U1⊤U1[0u^2]=U1[0Au^2]=U1[0λu^2]=λu2
此外
∥u2∥2=u2⊤u2=[0u^2]⊤U1⊤U1[0u^2]=∥u^2∥2=1
u1⊤u2=u1⊤[u1Q1][0u^2]=0
因此u2与u1正交。如果λ=2,那么证明就完成了,因为我们已经找到了ϕ的二维正交标准基u2与u1。如果λ>2,我们对矩阵A2应用同样的推理迭代,并找到一个与u2,u1正交的特征向量u3。我们可以以这种方式继续,直到达到μ,此时我们以由恰好 μ个向量组成的ϕ的正交标准基结束该证明过程
2.2 谱定理
结合定理4.1(对称矩阵的特征空间维数与特征值重数相同;对称矩阵各个特征空间彼此正交)和定理3.4(如果矩阵特征空间维数与特征值重数相同那么它与对角矩阵相似,且实现相似的变换矩阵由特征空间的基组成,对角矩阵的对角线为特征值),我们很容易得出任何对称矩阵都与对角矩阵正交相似。这在以下所谓的对称矩阵谱定理中有所说明
定理4.2(谱定理):设 A∈Rn,n为对称矩阵,设λi∈R,i=1,⋯,n为A的特征值(按重数计数)。那么,存在一组正交归一向量ui∈Rn,i=1,⋯,n,使得Aui=λiui。等价地,存在一个正交矩阵U=[u1,⋯,un](i.e.,UU⊤=U⊤U=In)使得
A=UΛU⊤=i=1∑nλiuiui⊤,Λ=diag(λ1,⋯,λn)
谱定理还表明,任何对称矩阵都可以分解为简单的秩一矩阵(并矢)uiui⊤的加权和,其中权重由特征值 λi给出
3. 谱分解与优化
在本节中,我们将说明如何利用对称矩阵的谱分解来解决特定类型的优化问题,即那些涉及在欧几里得球上对二次型进行最大化或最小化的问题
3.1 特征值的变分刻画
我们首先把对称矩阵的特征值表示为某些优化问题的最优值。由于A∈Sn的特征值是实数,我们可以将它们按降序排列:
λmax(A)=λ1(A)≥λ2(A)≥⋯≥λn(A)=λmin(A)
极值特征值是A在单位欧几里得球面上诱导的二次型所达到的最小值和最大值。对于x=0,下面的比值被称为瑞利商(Rayleigh quotient)
x⊤xx⊤Ax
定理4.3(瑞利商):对于A∈Sn,有
λmin(A)≤x⊤xx⊤Ax≤λmax(A),∀x=0
另外
λmax(A)=x:∥x∥2=1maxx⊤Axλmin(A)=x:∥x∥2=1minx⊤Ax
最大值和最小值分别在x=u1和 x=un处取得,其中u1和un是A的单位范数特征向量,分别对应最大、最小特征值
证明
证明基于对称矩阵的谱定理以及欧几里得范数在正交变换下的不变性。设A=UΛU⊤为A的谱分解,其中Λ的对角线为按顺序排列的特征值,U为正交矩阵。定义x:=U⊤x
x⊤Ax=x⊤UΛU⊤x=x⊤Λx=i=1∑nλixi2
注意到
λmini=1∑nxi2≤i=1∑nλixi2≤λmaxi=1∑nxi2
考虑到∑i=1nxi2=∥x∥22=∥U⊤x∥22=∥x∥22参考Section3.4.6
λmin∥x∥22≤x⊤Ax≤λmax∥x∥22
由此可以得出第一个结论。此外,很容易验证,上述不等式中的上界和下界实际上分别在x=u1(U的第一列)和x=un(U的最后一列)处取得(代入既可证明)
3.2 极大极小原理(Minimax principle)
定理4.3实际上是更一般原理的一个特例,这一原理称为对称矩阵特征值的极小极大原理。我们先陈述一下结果
定理4.4(庞加莱不等式):设A∈Sn并且设V为Rn的任意k维子空间,1≤k≤n。存在向量x,y∈V满足∥x∥2=∥y∥2=1,使得
x⊤Ax≤λk(A),y⊤Ay≥λn−k+1(A)
证明
设A=UΛU⊤为A的谱分解,并记Q=R(Uk)为由Uk=[uk,⋯un]的列生成的子空间。由于Q的维度为n−k+1,而V的维度为k,因此交集V∩Q必然非空(否则直和V⊕Q的维度将大于n)。然后取一个单位范数向量x∈V∩Q。则x=Ukξ,对于某个满足∥ξ∥2=1的ξ使得
x⊤Ax=ξ⊤Uk⊤UΛU⊤Ukξ=i=k∑nλi(A)ξi2≤λk(A)i=k∑nξi2=λk(A)
这证明了第一个命题。第二个命题可以通过同理证明,只需将相同的推理应用到−A
从庞加莱不等式可以推导出接下来所述的极小极大原理,这也被称为特征值的变分刻画
推论4.1(极大极小原理):设A∈Sn,且设V表示Rn的一个子空间。则对于k∈{1,⋯,n},有
λk(A)=dimV=kmaxx∈V,∥x∥2=1minx⊤Ax=dimV=n−k+1minx∈V,∥x∥2=1maxx⊤Ax
证明
根据庞加莱不等式,如果V是Rn 的任意k维子空间,那么存在x∈V,∥x∥2=1满足x⊤Ax≤λk(A),即minx∈V,∥x∥2=1x⊤Ax≤λk(A)。特别地,如果我们取V为{u1,⋯,uk}张成的空间,则可以实现等号(参考定理4.4的证明过程),从而证明第一个结论。第二个结论通过将第一个结论应用于矩阵−A得出
矩阵增益(matrix gain)给定一个矩阵A∈Rm,n,我们考虑与A相关的线性函数,该函数将输入向量x∈Rn映射到输出向量y∈Rm
y=Ax
给定一个向量范数,矩阵增益或算子范数定义为输出的大小(范数)与输入的大小(范数)之比∥Ax∥/∥x∥的最大值,参见Section3.6。特别地,相对于欧几里得范数的增益定义为
∥A∥2=x=0max∥x∥2∥Ax∥2
并且它通常被称为A的谱范数(spectral norm)。在欧几里得范数下,输入输出比的平方是
∥x∥22∥Ax∥22=x⊤xx⊤(A⊤A)x
根据定理4.3,我们可以看到该量分别被对称矩阵A⊤A∈Sn的最大特征值和最小特征值上下界定:
λmin(A⊤A)≤∥x∥22∥Ax∥22≤λmax(A⊤A)
(顺便注意,一个矩阵A⊤A的所有特征值λi(A⊤A),i=1,⋯n都是非负的,因为A⊤A是一个半正定矩阵,下一节中将讨论此点)。我们还从定理4.3中知道,当x分别等于A⊤A的最大和最小特征值对应的特征向量时等号成立。因此
∥A∥2=x=0max∥x∥2∥Ax∥2=λmax(A⊤A)
极大极小原理的一个重要结果是将矩阵A,B的有序特征值与A+B的有序特征值进行比较的下列结论
推论4.2:令A,B∈Sn,对每个k=1,⋯,n我们有
λk(A)+λmin(B)≤λk(A+B)≤λk(A)+λmax(B)
证明
根据推论4.1我们可以得到
λk(A+B)=dimV=n−k+1minx∈V,∥x∥2=1max(x⊤Ax+x⊤Bx)≥dimV=n−k+1minx∈V,∥x∥2=1maxx⊤Ax+λmin(B)放缩=λk(A)+λmin(B)
这证明了左边的不等式;右边的不等式可以通过类似的推理得到
推论4.2的一个特殊情形出现在当对称矩阵A∈Sn施加扰动,即加入一个秩为一的矩阵B=qq⊤时。由于λmax(qq⊤)=∥q∥22并且λmin(qq⊤)=0(参考Section3.4.7),我们可以得到
λk(A)≤λk(A+qq⊤)≤λk(A)+∥q∥22,k=1,⋯,n
4. 半正定矩阵
4.1 定义
一个对称矩阵A∈Sn其关联的二次型非负,则被称为半正定(positive semidefinite, PSD),
x⊤Ax≥0,∀x∈Rn
如果
x⊤Ax>0,∀0=x∈Rn
那么A被称为正定(positive definite, PD)。为了表示一个对称的半正定/正定矩阵,我们使用符号A≻0 /A⪰0。如果−A⪰0,我们说A是半负定的(negative semidefinite, NSD),记作A⪯0;同样地,如果−A≻0,我们说A是负定的(negative definite, ND),记作A≺0。可以看出,当且仅当一个半正定矩阵是可逆的,它实际上才是正定矩阵
证明
根据定理4.3有
λmin(A)=∥x∥22x⊤Ax∣x=un
A为半正定则x⊤Ax≥0,那么λmin(A)≥0,即所有特征值均大于等于零
同理,A为正定则x⊤Ax>0,那么λmin(A)>0,即所有特征值均大于零
参考Section3.3.3,矩阵可逆则特征值全不为零。那么半正定矩阵(特征值大于等于零)+矩阵可逆(特征值不为零)=矩阵正定(特征值大于零)
在Rn,n中,实半正定矩阵集合记作
S+n={A∈Sn:A⪰0}
相似地,S++n代表Rn,n中正定矩阵的集合
备注4.1:PSD矩阵的主子矩阵。设I={i1,⋯,im}是下标集合{1,⋯,n}的一个子集,并记AI为从A∈Rn,n中取出下标属于I的行和列所得的子矩阵(这称为A的m×m维主子矩阵)
A⪰0⇒AI⪰0,∀I
同样地,A≻0意味着AI≻0。这一点能够成立,是因为形成xI⊤AIxI相当于向量x形成x⊤Ax时x的元素xi只有在i∈I时才非零。根据这个结论我们可以知道A⪰0意味着对角元素aii≥0,i=1,⋯,n(每一个对角线上的元素都是一个主子矩阵);同样地,A≻0意味着aii>0,i=1,⋯,n
4.2 半正定矩阵的特征值
如果将一个半正定矩阵B加到矩阵A∈Sm上,矩阵A的特征值不会减少。如果B⪰0,那么λmin(B)≥0,根据推论4.2可以得出
B⪰0⇒λk(A+B)≥λk(A)+λmin(B)≥λk(A),k=1,⋯,n
4.3 全等变化
定理4.5:设A∈Sn,B∈Rn,m并且考虑其乘积
C=B⊤AB∈Sm
- A⪰0⇒C⪰0
- 如果A≻0,那么rankB=m⇔C≻0
- 如果B是方阵并且可逆,那么A≻0/A⪰0⇔C≻0/C⪰0
证明
第一点
对于所有x∈Rm有
x⊤Cx=x⊤B⊤ABx=z⊤Az≥0
令z=Bx,因此C⪰0
第二点
注意到,由于A≻0,那么x=0时,z=0必成立⇔C≻0,因为当z=0时z⊤Az>0不一定成立。故需要Bx=0对所有x=0成立,即dimN(B)=0时。根据定理3.1,有dimN(B)+rank(B)=m,由此可得结论
第三点
根据第二点可知,A≻0⇒C≻0。为了证明C≻0⇒A≻0,先令C≻0,并为了反证法假设A⊁0。则存在z=0使得z⊤Az≤0。由于B可逆,令x=B−1z,则
0≥z⊤Az=x⊤B⊤ABx=x⊤Cx
这与C≻0C矛盾。使用类似的论证可以证明A⪰0⇔C⪰0
当B是方阵且可逆时,C=B⊤AB∈Sm定义了所谓的合同变换( congruence transformation),并且A,C称为合同矩阵。对称矩阵A∈Sn的惯性(inertia) In(A)=(npos(A),nneg(A),nzero(A))被定义为一个非负整数三元组,分别表示A正特征值的数量、负特征值的数量和零特征值的数量(计入重数)。可以证明,当且仅当(等价于充要条件)矩阵A∈Sn和C∈Sn是合同矩阵时,它们才具有相同的惯性
由于单位矩阵是正定的,那么将定理4.5中的A设为单位矩阵可以得到以下推论
推论4.3:对于任意矩阵A∈Rm,n,有如下结论
- A⊤A⪰0并且AA⊤⪰0
- A⊤A≻0⇔A是列满秩矩阵,即rankA=n
- AA⊤≻0⇔A是行满秩矩阵,即rankA=m
定理4.6(通过合同进行联合对角化):设A1,A2∈Sn,并且存在某些标量α1,α2使得
A=α1A1+α2A2≻0
那么存在一个非奇异矩阵B∈Rn,n,使得B⊤A1B和B⊤A2B都是对角矩阵
这说明当两个对称矩阵的线性组合满足正定,那么他们可以通过适当的合同变换同时“对角化”
证明
不失一般性地假设α2>0。由于A≻0,In≻0那么B1零空间平凡,又B1为方阵,那么它可逆,故A与单位矩阵合同,即存在某个非奇异矩阵B1使得B1⊤AB1=In。由于B1⊤A1B1是对称的,根据谱定理,存在一个正交矩阵W使得B1⊤A1B1=WDW⊤,变换可得W⊤B1⊤A1B1W=D,其中D为对角矩阵。取B=B1W,我们可以得到
B⊤AB=W⊤B1⊤AB1W=W⊤InW=IB⊤A1B=D
由于A2=(A−α1A1)/α2,因此B1⊤A2B1也是对角矩阵,证明完成
从定理4.6的证明过程,我们可以得到以下推论
推论4.4:设A≻0且C∈Sn。则存在一个非奇异矩阵B,使得B⊤CB为对角矩阵,且B⊤AB=In
4.4 矩阵平方根和Cholesky分解
设A∈Sn,那么