Logo

对称矩阵的对角化

1. 对称矩阵的定义

对称矩阵symmetric matrix\textbf{symmetric matrix})是指满足 AT=A ~\mathbf{A}^T = \mathbf{A}~的方阵,即主对角线两侧元素相等(如 aij=aji ~a_{ij} = a_{ji}~),其对称性反映了系统或数据的对称结构。由于实对称矩阵具有所有特征值为实数,且不同特征值的特征向量正交等独特性质,这便于通过正交矩阵实现正交对角化(A=PDPT\mathbf{A} = \mathbf{P}\mathbf{D}\mathbf{P}^T)、简化矩阵计算和分解,因此它在物理学(如描述系统动态和振动分析)、统计学(如主成分分析中的协方差矩阵建模)和工程(如优化与控制问题)中得到广泛应用。

2. 对称矩阵的正交对角化

我们在对角化一节讨论过如何对复杂矩阵进行对角化来简化矩阵运算。对称矩阵的对角化过程和普通矩阵类似,下面通过一个示例来演示这个过程:
A=[621261115]\mathbf{A} = \begin{bmatrix} 6 & -2 & -1 \\ -2 & 6 & -1 \\ -1 & -1 & 5 \end{bmatrix}

  1. 计算特征值
    • 特征方程:特征值 λ ~\lambda~满足 det(AλI)=0 ~\det(\mathbf{A} - \lambda \mathbf{I}) = 0~。构造矩阵:
      AλI=[6λ2126λ1115λ]\mathbf{A} - \lambda I = \begin{bmatrix} 6 - \lambda & -2 & -1 \\ -2 & 6 - \lambda & -1 \\ -1 & -1 & 5 - \lambda \end{bmatrix}
    • 行列式计算:
      det(AλI)=λ3+17λ290λ+144=0(λ8)(λ6)(λ3)=0λ1=8,λ2=6,λ3=3\begin{align*} &\det(A - \lambda I) = -\lambda^3 + 17\lambda^2 - 90\lambda + 144 = 0 \\[2ex] \Rightarrow \quad &-(\lambda - 8)(\lambda - 6)(\lambda - 3) = 0 \\[2ex] \Rightarrow \quad &\lambda_1 = 8,\quad \lambda_2 = 6,\quad \lambda_3 = 3 \\[2ex] \end{align*}
  2. 计算特征向量
    • 对于每个特征值,求解 (AλI)x=0 ~(\mathbf{A} - \lambda \mathbf{I})\mathbf{x} = 0~的非零解,得到特征向量。
    • λ=8 \lambda=8~
      A8I=[221221113][221000000]\mathbf{A} - 8\mathbf{I} = \begin{bmatrix} -2 & -2 & -1 \\ -2 & -2 & -1 \\ -1 & -1 & -3 \end{bmatrix} \sim \begin{bmatrix} -2 & -2 & -1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix}
      2x12x2x3=0-2x_1 - 2x_2 - x_3 = 0: 设 x2=t,x3=0, ~x_2 = t, \, x_3 = 0,~ 2x12t=0x1=t。 ~-2x_1 - 2t = 0 \Rightarrow x_1 = -t。~ t=1 ~t=1~,得:
      v1=[110]\mathbf{v}_1 = \begin{bmatrix}-1 \\ 1 \\ 0\end{bmatrix}
    • λ=6 \lambda=6~
      A6I=[021201111][101/2011/2000]\mathbf{A} - 6\mathbf{I} = \begin{bmatrix} 0 & -2 & -1 \\ -2 & 0 & -1 \\ -1 & -1 & -1 \end{bmatrix} \sim \begin{bmatrix} 1 & 0 & 1/2 \\ 0 & 1 & 1/2 \\ 0 & 0 & 0 \end{bmatrix}
      得:
      v2=[112]\mathbf{v}_2 = \begin{bmatrix} -1 \\ -1 \\ 2 \end{bmatrix}
    • λ=3 \lambda=3~
      A6I=[321231112][101011000]\mathbf{A} - 6\mathbf{I} = \begin{bmatrix} 3 & -2 & -1 \\ -2 & 3 & -1 \\ -1 & -1 & 2 \end{bmatrix} \sim \begin{bmatrix} 1 & 0 & -1 \\ 0 & 1 & -1 \\ 0 & 0 & 0 \end{bmatrix}
      得:
      v3=[111]\mathbf{v}_3 = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

  1. 标准化:将特征向量归一化为单位向量,这一步是为了构建正交矩阵
    v1=(1)2+12=2,u1=u1u1=[1/21/20]v2=(1)2+(1)2+22=6,u2=u2u2=[1/61/62/6]v3=12+12+12=3,u3=u3u3=[1/31/31/3]\begin{aligned} \|\mathbf{v}_1\| &= \sqrt{(-1)^2 + 1^2} = \sqrt{2}, &\quad \mathbf{u}_1 = \frac{\mathbf{u}_1}{\|\mathbf{u}_1\|} = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \\ 0 \end{bmatrix} \\[4ex] \|\mathbf{v}_2\| &= \sqrt{(-1)^2 + (-1)^2 + 2^2} = \sqrt{6}, &\quad \mathbf{u}_2 = \frac{\mathbf{u}_2}{\|\mathbf{u}_2\|} = \begin{bmatrix} -1/\sqrt{6} \\ -1/\sqrt{6} \\ 2/\sqrt{6} \end{bmatrix} \\[4ex] \|\mathbf{v}_3\| &= \sqrt{1^2 + 1^2 + 1^2} = \sqrt{3}, &\quad \mathbf{u}_3 = \frac{\mathbf{u}_3}{\|\mathbf{u}_3\|} = \begin{bmatrix} 1/\sqrt{3} \\ 1/\sqrt{3} \\ 1/\sqrt{3} \end{bmatrix} \end{aligned}
  2. 构造 P ~\mathbf{P}~ D ~\mathbf{D}~
    • 正交矩阵 P~\mathbf{P}
      P=[u1u2u3]=[1/21/61/31/21/61/302/61/3]\mathbf{P} =\begin{bmatrix}\mathbf{u}_1 & \mathbf{u}_2 & \mathbf{u}_3 \end{bmatrix}= \begin{bmatrix} -1/\sqrt{2} & -1/\sqrt{6} & 1/\sqrt{3} \\ 1/\sqrt{2} & -1/\sqrt{6} & 1/\sqrt{3} \\ 0 & 2/\sqrt{6} & 1/\sqrt{3} \end{bmatrix}
    • 对角矩阵 D ~\mathbf{D}~
      D=[λ1000λ2000λ3]=[800060003]\mathbf{D} = \begin{bmatrix} \lambda_1 & 0 & 0 \\ 0 & \lambda_2 & 0 \\ 0 & 0 & \lambda_3 \end{bmatrix} = \begin{bmatrix} 8 & 0 & 0 \\ 0 & 6 & 0 \\ 0 & 0 & 3 \end{bmatrix}
  3. 结论
    • 对角化的结果:
      A=PDP1=[1/21/61/31/21/61/302/61/3][800060003][1/21/61/31/21/61/302/61/3]1\mathbf{A} = \mathbf{P}\mathbf{D}\mathbf{P}^{-1} = \begin{bmatrix} -1/\sqrt{2} & -1/\sqrt{6} & 1/\sqrt{3} \\ 1/\sqrt{2} & -1/\sqrt{6} & 1/\sqrt{3} \\ 0 & 2/\sqrt{6} & 1/\sqrt{3} \end{bmatrix} \begin{bmatrix} 8 & 0 & 0 \\ 0 & 6 & 0 \\ 0 & 0 & 3 \end{bmatrix} \begin{bmatrix} -1/\sqrt{2} & -1/\sqrt{6} & 1/\sqrt{3} \\ 1/\sqrt{2} & -1/\sqrt{6} & 1/\sqrt{3} \\ 0 & 2/\sqrt{6} & 1/\sqrt{3} \end{bmatrix}^{-1}
    • 由于正交矩阵的逆矩阵等于其转置矩阵,即 P1=PT~\mathbf{P}^{-1} = \mathbf{P}^T,所以对角化结果满足:
      A=PDP1=PDPT\mathbf{A} = \mathbf{P}\mathbf{D}\mathbf{P}^{-1} = \mathbf{P}\mathbf{D}\mathbf{P}^{T}
    • 由于 P ~\mathbf{P}~是正交矩阵,A=PDPT\mathbf{A} = \mathbf{P}\mathbf{D}\mathbf{P}^{T}的形式消除了显式计算逆矩阵 P1~\mathbf{P}^{-1}的需要,因为 P1~\mathbf{P}^{-1}可以直接通过转置PT\mathbf{P}^T得到。
在上面的步骤 1 ~1~中,我们注意到对称矩阵 A ~\mathbf{A}~的特征向量是正交的,这一性质并非偶然,而是实对称矩阵的一个重要的固有特性。有如下定理:

  1.  v1, v2 ~\mathbf{v}_1,~\mathbf{v}_2~是矩阵 A ~\mathbf{A}~的特征向量,分别对应不同的特征值 λ1 ~\lambda_1~ λ2 ~\lambda_2~

  2. 计算内积:
    λ1v1v2=(Av1)v2=(Av1)Tv2(点积的矩阵形式)=v1TATv2(转置矩阵的性质)=v1TAv2(对称矩阵的性质)=v1T(λ2v2)=λ2v1Tv2=λ2v1v2(点积的矩阵形式)\begin{align*} \textcolor{#2196f3}{\lambda_1 \mathbf{v}_1} \cdot \mathbf{v}_2 &= (\textcolor{#2196f3}{\mathbf{A} \mathbf{v}_1})\cdot \mathbf{v}_2\\[1ex] &= (\mathbf{A} \mathbf{v}_1)^T \mathbf{v}_2 \quad &(\small{点积的矩阵形式}) \\[1ex] &= \mathbf{v}_1^T \mathbf{A}^T \mathbf{v}_2 &(\small{转置矩阵的性质}) \\[1ex] &= \mathbf{v}_1^T \textcolor{#2196f3}{\mathbf{A} \mathbf{v}_2} &(\small{对称矩阵的性质}) \\[1ex] &= \mathbf{v}_1^T (\textcolor{#2196f3}{\lambda_2\mathbf{v}_2}) = \lambda_2 \mathbf{v}_1^T \mathbf{v}_2 \\[1ex] &= \lambda_2 \mathbf{v}_1 \cdot \mathbf{v}_2 &(\small{点积的矩阵形式}) \\[1ex] \end{align*}
  3. 整理得到:
    λ1v1v2=λ2v1v2(λ1λ2)v1v2=0( 由于 λ1λ2)v1v2=0\begin{align*} &\lambda_1\mathbf{v}_1\cdot \mathbf{v}_2 = \lambda_2\mathbf{v}_1\cdot \mathbf{v}_2\\[2ex] \Rightarrow \quad &(\lambda_1 - \lambda_2)\mathbf{v}_1\cdot \mathbf{v}_2 = 0 \quad (~\text{由于}~ \lambda_1 \neq \lambda_2)\\[2ex] \Rightarrow \quad &\mathbf{v}_1\cdot \mathbf{v}_2 = 0 \quad \end{align*}
上面对矩阵 A ~\mathbf{A}~进行的对角化过程又称为正交对角化 orthogonally diagonalizable ~\textbf{orthogonally diagonalizable}~),它将一个 n×n ~n\times n~矩阵 A ~\mathbf{A}~,分解为一个正交矩阵 P ~\mathbf{P}~和一个对角矩阵 D ~\mathbf{D}~
A=PDPT=PDP1\mathbf{A} = \mathbf{P} \mathbf{D} \mathbf{P}^T = \mathbf{P} \mathbf{D} \mathbf{P}^{-1}
这里的 PT ~\mathbf{P}^T~等于 P1 ~\mathbf{P}^{-1}~是正交矩阵的特性,因此PDPT\mathbf{P} \mathbf{D} \mathbf{P}^TPDP1\mathbf{P} \mathbf{D} \mathbf{P}^{-1}在正交矩阵的情况下是等价的。

3. 正交对角化对称矩阵的条件

在对角化对角化一节中,我们在讨论过判断任意 n×n ~n\times n~矩阵 A ~\mathbf{A}~是否可对角化通常很困难。但如何矩阵 A ~\mathbf{A}~是实对称矩阵(即 A=AT ~\mathbf{A} = \mathbf{A}^T~),则 A ~\mathbf{A}~总是可以正交对角化。其正交矩阵 P ~\mathbf{P}~的列向量是 A ~\mathbf{A}~ n ~n~个标准正交特征向量,且A=PDPT\mathbf{A} = \mathbf{P}\mathbf{D}\mathbf{P}^T,其中 D ~\mathbf{D}~是一个对角矩阵,其对角元素是 A ~\mathbf{A}~对应的特征值。

3.1 正交对角化的充要条件

确定一个矩阵是否能够被正交对角化,结合前述内容有如下定理:

对于定理 2 ~2~的充分条件(即 A ~\mathbf{A}~可正交对角化  ~\Rightarrow~A \mathbf{A}~是对称矩阵)的证明通过直接矩阵转置运算即可验证:如果 A ~\mathbf{A}~可正交对角化,即A=PDPT\mathbf{A} = \mathbf{P} \mathbf{D} \mathbf{P}^T,那么计算 AT ~\mathbf{A}^T~
AT=(PDPT)T=PTTDTPT=PDPT=A\mathbf{A}^T = (\mathbf{P} \mathbf{D} \mathbf{P}^T)^T = \mathbf{P}^{TT} \mathbf{D}^T \mathbf{P}^T = \mathbf{P} \mathbf{D} \mathbf{P}^T = \mathbf{A}
而必要条件(即矩阵 A ~\mathbf{A}~为对称矩阵  ~\Rightarrow~A \mathbf{A}~可对角化)的证明较为复杂,需要依赖线性代数的深层理论,如谱定理和施密特正交化过程。

3.2 重复特征值的情况

与普通矩阵类似,对称矩阵的正交对角化并不要求特征值必须唯一,即使特征值重复,依然可以通过正交基实现正交对角化。请看下面的示例,对矩阵 A ~\mathbf{A}~进行正交对角化:
A=[324262423]\mathbf{A} = \begin{bmatrix} 3 & -2 & 4 \\ -2 & 6 & 2 \\ 4 & 2 & 3 \end{bmatrix}

  1. 计算特征值
    • 特征方程:特征值 λ ~\lambda~满足λ3+12λ221λ98=(λ7)2(λ+2)=0-\lambda^3 + 12\lambda^2 - 21\lambda - 98 = -(\lambda - 7)^2 (\lambda + 2) = 0
    • 矩阵 A ~\mathbf{A}~的特征值:λ1=7\lambda_1 = 7( 重数 2 ~2~),λ2=2\lambda_2 = -2( 重数 1 ~1~)。
  2. 计算特征向量
    • 对于每个特征值,求解 (AλI)x=0 ~(\mathbf{A} - \lambda \mathbf{I})\mathbf{x} = 0~ 的非零解,得到特征向量。
    • λ=7 \lambda=7~
      A7I=[424212424][10.51000000]\mathbf{A} - 7\mathbf{I} = \begin{bmatrix} -4 & -2 & 4 \\ -2 & -1 & 2 \\ 4 & 2 & -4 \end{bmatrix} \sim \begin{bmatrix} 1 & 0.5 & -1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix}
      得特征向量:v1=[101]T,v2=[0.510]T\mathbf{v}_1 = \begin{bmatrix}1 & 0 & 1\end{bmatrix}^T,\quad\mathbf{v}_2 = \begin{bmatrix}-0.5 & 1 & 0\end{bmatrix}^T
    • λ=2 \lambda=-2~
      A+2I=[524282425]\mathbf{A} + 2\mathbf{I} = \begin{bmatrix} 5 & -2 & 4 \\ -2 & 8 & 2 \\ 4 & 2 & 5 \end{bmatrix}
      得特征向量:v3=[11/21]T\mathbf{v}_3 = \begin{bmatrix} -1 & -1/2 & 1 \end{bmatrix}^T

由于出现了重数为 2 ~2~的特征值,所以与之对应的两个特征向量来自于同一个特征子空间,定理 1 ~1~只能保证v3\mathbf{v}_3分别与v1,v2\mathbf{v}_1,\mathbf{v}_2正交,并不能保证v1, v2\mathbf{v}_1,~\mathbf{v}_2正交,所以我们需要对这两个特征向量进行正交化处理。
  1. 保留 v1 ~\mathbf{v}_1~不变,作为第一个正交向量u1=v1=[101]T\mathbf{u}_1 = \mathbf{v}_1 = \begin{bmatrix}1 & 0 & 1\end{bmatrix}^T
  2. 计算 v2 ~\mathbf{v}_2~ v1 ~\mathbf{v}_1~上的投影:
    projv1v2=v2v1v1v1v1=0.512+02+12[101]=[0.2500.25]\text{proj}_{\mathbf{v}_1} \mathbf{v}_2 = \frac{\mathbf{v}_2 \cdot \mathbf{v}_1}{\mathbf{v}_1 \cdot \mathbf{v}_1} \mathbf{v}_1 = \frac{-0.5}{1^2 + 0^2 + 1^2} \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix} = \begin{bmatrix} -0.25 \\ 0 \\ -0.25 \end{bmatrix}
  3. 计算正交于 v1 ~\mathbf{v}_1~的向量 u2 ~\mathbf{u}_2~
    u2=v2projv1v2=[0.510][0.2500.25]=[0.2510.25]\mathbf{u}_2 = \mathbf{v}_2 - \text{proj}_{\mathbf{v}_1} \mathbf{v}_2 = \begin{bmatrix} -0.5 \\ 1 \\ 0 \end{bmatrix} - \begin{bmatrix} -0.25 \\ 0 \\ -0.25 \end{bmatrix} = \begin{bmatrix} -0.25 \\ 1 \\ 0.25 \end{bmatrix}
  4. 得到正交基如下:
    {[101],[0.2510.25],[10.51]}\left\{\begin{bmatrix}1 \\ 0 \\ 1\end{bmatrix}, \begin{bmatrix}-0.25 \\ 1 \\ 0.25\end{bmatrix}, \begin{bmatrix}-1 \\ -0.5 \\ 1\end{bmatrix} \right\}

  1. 标准化:将特征向量归一化为单位向量。
    u1=(1)2+12=2,u1=u1u1=[1/21/20]u2=(0.25)2+12+0.252=322,u2=u2u2=[1/184/181/18]u3=(1)2+(0.5)2+12=1.5,u3=u3u3=[2/31/32/3]\begin{aligned} \|\mathbf{u}_1\| &= \sqrt{(-1)^2 + 1^2} = \sqrt{2}, \quad &\mathbf{u}_1 = \frac{\mathbf{u}_1}{\|\mathbf{u}_1\|} = \begin{bmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \\ 0 \end{bmatrix} \\[4ex] \|\mathbf{u}_2\| &= \sqrt{(-0.25)^2 + 1^2 + 0.25^2} = \frac{3}{2\sqrt{2}}, \quad &\mathbf{u}_2 = \frac{\mathbf{u}_2}{\|\mathbf{u}_2\|} = \begin{bmatrix} -1/\sqrt{18} \\ 4/\sqrt{18} \\ 1/\sqrt{18} \end{bmatrix} \\[4ex] \|\mathbf{u}_3\| &= \sqrt{(-1)^2 + (-0.5)^2 + 1^2} = 1.5, \quad &\mathbf{u}_3 = \frac{\mathbf{u}_3}{\|\mathbf{u}_3\|} = \begin{bmatrix} -2/3 \\ -1/3 \\ 2/3 \end{bmatrix} \end{aligned}
  2. 构造 P ~\mathbf{P}~ D ~\mathbf{D}~
    • 正交矩阵 P~\mathbf{P}
      P=[u1u2u3]=[1/21/182/304/181/31/21/182/3]\mathbf{P} = \begin{bmatrix} \mathbf{u}_1 & \mathbf{u}_2 & \mathbf{u}_3 \end{bmatrix} = \begin{bmatrix} 1/\sqrt{2} & -1/\sqrt{18} & -2/3 \\ 0 & 4/\sqrt{18} & -1/3 \\ 1/\sqrt{2} & 1/\sqrt{18} & 2/3 \end{bmatrix}
    • 对角矩阵 D ~\mathbf{D}~
      D=[700070002]\mathbf{D} = \begin{bmatrix} 7 & 0 & 0 \\ 0 & 7 & 0 \\ 0 & 0 & -2 \end{bmatrix}
  3. 结论
    •  P ~\mathbf{P}~是正交矩阵:PTP=I\mathbf{P}^T\mathbf{P} = \mathbf{I}(列向量标准正交)。
    • A=PDPT\mathbf{A}=\mathbf{P}\mathbf{D}\mathbf{P}^T成立。

4. 谱定理

在线性代数中,矩阵的特征值的集合被称为”(spectrum\textbf{spectrum}。下面的谱定理是关于对称矩阵的一个核心定理,它系统性地描述了 n×n ~n\times n~对称矩阵 A ~\mathbf{A}~的特征值和特征向量的性质。

  1. 证明特征值是实数
    • A \mathbf{A}~是一个 n×n ~n\times n~的实对称矩阵,设 xCn ~\mathbf{x} \in \mathbb{C}^n~ A ~\mathbf{A}~的特征向量,满足:
      Ax=λx\mathbf{A}\mathbf{x} = \lambda \mathbf{x}
      其中 λ ~\lambda~是对应的特征值。
    • 计算 xTAx ~\overline{\mathbf{x}}^T\mathbf{A}\mathbf{x}~(其中 x ~\overline{\mathbf{x}}~ x ~\mathbf{x}~的共轭向量):
      xTAx=xT(λx)=λ(xTx)\overline{\mathbf{x}}^T \mathbf{A} \mathbf{x} = \overline{\mathbf{x}}^T (\lambda \mathbf{x}) = \lambda (\overline{\mathbf{x}}^T \mathbf{x})
      由于 A ~\mathbf{A}~是对称矩阵, xTAx ~\overline{\mathbf{x}}^T\mathbf{A}\mathbf{x}~一定是实数(由于A=AT\mathbf{A} = \mathbf{A}^T,对 xTAx ~\overline{\mathbf{x}}^T\mathbf{A}\mathbf{x}~取共轭后等于自身,即xTAx=xTAx\overline{\mathbf{x}^T A \mathbf{x}} = \overline{\mathbf{x}}^T A \mathbf{x},因此它一定实数),而xTx\overline{\mathbf{x}}^T\mathbf{x}也是实数,因此 λ ~\lambda~只能是实数。
  2. 证明 A ~\mathbf{A}~ n ~n~个特征值
    • A \mathbf{A}~的特征值是其特征多项式det(AλI)=0\det(\mathbf{A} - \lambda \mathbf{I}) = 0的根,该多项式是实系数的 n ~n~次多项式。由代数基本定理可知,该多项式有 n ~n~个(包括重数)根。
  3. 结论
    • 结合 1,2 ~1,2~可得:对称矩阵 A ~\mathbf{A}~具有 n ~n~个实特征值(包括重数)。

  1. 已知

    • A \mathbf{A}~是对称矩阵AT=A\mathbf{A}^T = \mathbf{A}

    • 特征值 λ ~\lambda~的代数重数是它在特征多项式 det(AλI)=0 ~\det(\mathbf{A} - \lambda \mathbf{I}) = 0~中的重数。

    • 特征空间 Eig(λ) ~\text{Eig}(\lambda)~的维数是几何重数。

  2. 对称矩阵性质

    • A \mathbf{A}~ n ~n~个实特征值(计入重数),且对应不同特征值的特征向量正交。

    • A \mathbf{A}~可以正交对角化:存在正交矩阵 Q ~\mathbf{Q}~和对角矩阵 D ~\mathbf{D}~,使得 A=QDQT ~\mathbf{A} =\mathbf{Q}\mathbf{D}\mathbf{Q}^T ~,其中 D ~\mathbf{D}~的对角线是特征值。

  3. 结论:几何重数 = ~=~代数重数

    •  λ ~\lambda~的代数重数为 k ~k~。在 D ~\mathbf{D}~中,λ \lambda~出现 k ~k~次。

    • 对应 λ ~\lambda~的特征向量(Q \mathbf{Q}~中相关列)是正交的,因此线性无关,特征空间维数至少为 k ~k~

    • 所以,代数重数 = ~=~几何重数。

定理 1 ~1~的结论。

定理 2 ~2~的结论。

5. 谱分解

谱分解(Spectral Decomposition\text{Spectral Decomposition}) 是对谱定理的直接应用。它是一种在线性代数中将矩阵分解为基于其特征值和特征向量的形式的方法,特别适用于对称矩阵。

5.1 什么是谱分解

具体来说,对于一个 n×n ~n\times n~的对称矩阵 A ~\mathbf{A}~,如果 A ~\mathbf{A}~是正交可对角化的(即A=PDPT\mathbf{A} = \mathbf{P}\mathbf{D}\mathbf{P}^T),那么 A ~\mathbf{A}~可以表示为以下形式:
A=PDPT=[u1un][λ10000λn][u1TunT]=[λ1u1λnun][u1TunT]\begin{align*}\mathbf{A} = \mathbf{P} \mathbf{D} \mathbf{P}^T &= \begin{bmatrix} \mathbf{u}_1 & \dots & \mathbf{u}_n \end{bmatrix} \begin{bmatrix} \lambda_1 & \cdots & 0 \\ 0 & \ddots & 0 \\ 0 & \cdots & \lambda_n \end{bmatrix} \begin{bmatrix} \mathbf{u}_1^T \\ \dots \\ \mathbf{u}_n^T \end{bmatrix}\\[4ex] &=\begin{bmatrix} \lambda_1 \mathbf{u}_1 & \dots & \lambda_n \mathbf{u}_n \end{bmatrix} \begin{bmatrix} \mathbf{u}_1^T \\ \vdots \\ \mathbf{u}_n^T \end{bmatrix} \end{align*}
根据列列-行展开定理可得:
A=λ1u1u1T+λ2u2u2T++λnununT\mathbf{A} = \lambda_1 \mathbf{u}_1 \mathbf{u}_1^T + \lambda_2 \mathbf{u}_2 \mathbf{u}_2^T + \cdots + \lambda_n \mathbf{u}_n \mathbf{u}_n^T
这里的 ui ~\mathbf{u}_i~是单位特征向量(正交且模为 1 ~1~), λi ~\lambda_i~是对应的特征值,每个 λiuiuiT ~\lambda_i\mathbf{u}_i\mathbf{u}_i^T~是一个秩为 1 ~1~的矩阵(列空间或行空间是一维的),表示将向量投影到由 ui ~\mathbf{u}_i~所张成的子空间上,并按 λi ~\lambda_i~进行缩放。谱分解展示了矩阵如何在不同方向(由特征向量表示)上“伸缩”或“投影”(由特征值表示)。对于对称矩阵,这种分解是唯一的,且完全由其谱(特征值)和对应的正交特征向量决定。

5.2 为什么要做谱分解

谱分解在理论和实践中具有重要意义,主要原因如下:
  • 提升计算效率:谱分解简化了复杂的矩阵运算,如矩阵幂、指数和对数。通过将矩阵 A ~\mathbf{A}~表示为特征值和特征向量的组合,可以直接对特征值进行运算,而无需直接操作原始矩阵。对于对称矩阵,谱分解避免了计算逆矩阵 P1 ~\mathbf{P}^{-1}~,进一步简化了运算过程。

  • 直观的几何解释:谱分解中的每一项 λiuiuiT ~\lambda_i\mathbf{u}_i\mathbf{u}_i^T~是一个投影矩阵,表示将向量投影到特征向量 ui ~\mathbf{u}_i~的方向上。这提供了矩阵作用的几何直观理解。

  • 理论分析的基础:谱分解为研究矩阵的性质(如二次型、矩阵的秩和条件数)提供了基础。此外,它在数据分析和机器学习中的应用广泛,例如主成分分析(PCA\text{PCA})就是基于谱分解的。

  • 数值稳定性:在处理大规模数据或数值计算时,谱分解通常比直接矩阵运算更稳定,可以减少误差积累的风险。

5.3 谱分解的示例

构造矩阵 A ~\mathbf{A}~的谱分解,已知对称矩阵 A ~\mathbf{A}~的正交对角化如下:
A=[7224]=[2/51/51/52/5][8003][2/51/51/52/5]\mathbf{A} = \begin{bmatrix} 7 & 2 \\ 2 & 4 \end{bmatrix} = \begin{bmatrix} 2/\sqrt{5} & -1/\sqrt{5} \\ 1/\sqrt{5} & 2/\sqrt{5} \end{bmatrix} \begin{bmatrix} 8 & 0 \\ 0 & 3 \end{bmatrix} \begin{bmatrix} 2/\sqrt{5} & 1/\sqrt{5} \\ -1/\sqrt{5} & 2/\sqrt{5} \end{bmatrix}
下面是谱分解的具体步骤:

  • 从正交对角化中,我们知道矩阵 P ~\mathbf{P}~的列是 A ~\mathbf{A}~的特征向量,记为 u1 ~\mathbf{u}_1~ u2 ~\mathbf{u}_2~
  • 对应的特征值为 λ1=8, λ2=3 ~\lambda_1 = 8,~\lambda_2 = 3~

  • 谱分解的形式为:A=λ1u1u1T+λ2u2u2T\mathbf{A} = \lambda_1 \mathbf{u}_1 \mathbf{u}_1^T + \lambda_2 \mathbf{u}_2 \mathbf{u}_2^T
  • 因此:A=8u1u1T+3u2u2T\mathbf{A} = 8 \mathbf{u}_1 \mathbf{u}_1^T + 3\mathbf{u}_2 \mathbf{u}_2^T

  • 计算 u1u1T~\mathbf{u}_1\mathbf{u}_1^T
    u1u1T=[2/51/5][2/51/5]=[4/52/52/51/5]\mathbf{u}_1 \mathbf{u}_1^T = \begin{bmatrix} 2/\sqrt{5} \\ 1/\sqrt{5} \end{bmatrix} \begin{bmatrix} 2/\sqrt{5} & 1/\sqrt{5} \end{bmatrix} = \begin{bmatrix} 4/5 & 2/5 \\ 2/5 & 1/5 \end{bmatrix}
  • 计算 u2u2T~\mathbf{u}_2\mathbf{u}_2^T
    u2u2T=[1/52/5][1/52/5]=[1/52/52/54/5]\mathbf{u}_2 \mathbf{u}_2^T = \begin{bmatrix} -1/\sqrt{5} \\ 2/\sqrt{5} \end{bmatrix} \begin{bmatrix} -1/\sqrt{5} & 2/\sqrt{5} \end{bmatrix} = \begin{bmatrix} 1/5 & -2/5 \\ -2/5 & 4/5 \end{bmatrix}
  • 验证:
    A=8u1u1T+3u2u2T=[32/516/516/58/5]+[3/56/56/512/5]=[7224]\mathbf{A} = 8 \mathbf{u}_1 \mathbf{u}_1^T + 3 \mathbf{u}_2 \mathbf{u}_2^T = \begin{bmatrix} 32/5 & 16/5 \\ 16/5 & 8/5 \end{bmatrix} + \begin{bmatrix} 3/5 & -6/5 \\ -6/5 & 12/5 \end{bmatrix} = \begin{bmatrix} 7 & 2 \\ 2 & 4 \end{bmatrix}