Logo

特征方程

1. 特征方程的定义与基本性质

在上一节中,我们只讨论了如何判断一个特征值是否属于一个方阵 A ~\mathbf{A}~。下面我们来介绍如何求一个矩阵的特征值。我们还是从定义出发,对于矩阵方程(AλI)x=0(\mathbf{A}-\lambda\mathbf{I})\mathbf{x}=\mathbf{0},如果存在非零解 x0 ~\mathbf{x}\neq \mathbf{0}~,那么矩阵(AλI)(\mathbf{A}-\lambda\mathbf{I})解空间(即零空间)至少要包含一个非零向量 x ~\mathbf{x}~。根据可逆矩阵定理,矩阵 AλI\mathbf{A}-\lambda\mathbf{I} 必须不可逆,那么它对应的行列式一定为 0 ~0~(根据矩阵可逆性的充要条件),即:
det(AλI)=0\det(\mathbf{A} - \lambda \mathbf{I}) = 0
这个就是特征方程 (characteristic equation) ~(\textbf{characteristic equation})~,我们可以根据这个方程来求矩阵A=[2336]\mathbf{A}=\begin{bmatrix}2 & 3 \\ 3 & -6\end{bmatrix}的特征值。请观察求解过程:

开通会员解锁全部动画

2. 行列式与矩阵的特征值关系

行列式在计算矩阵的特征值中起着核心作用,下面我们来讨论行列式和矩阵的特征值之间的联系。前面我们已经学习过关于行列式的基本概念、行列式的计算方法(对矩阵按行、列展开),以及它的基本性质。为了方便后面的讨论,现把行列式的主要性质重新罗列如下:

结合上面行列式的性质 a ~a~ d ~d~,以及上一节讨论过的三角矩阵的特征值,我们可以得到下面的结论:

3. 特征多项式与特征值重数

特征方程是关于 λ ~\lambda~的多项式,如果矩阵 A ~\mathbf{A}~是一个 n×n ~n\times n~的矩阵,那么特征方程(AλI)x=0(\mathbf{A}-\lambda\mathbf{I})\mathbf{x}=\mathbf{0}是一个 n ~n~次多项式,它被称为 A ~\mathbf{A}~特征多项式 (characteristic polynomial) ~(\textbf{characteristic polynomial})~。例如下面的 4×4 ~4\times 4~矩阵 A ~\mathbf{A}~对应的是一个 4 ~4~次多项式。

开通会员解锁全部动画

在上面这个示例中, (5λ) ~(5-\lambda)~这个因子在特征多项式中出现了 2 ~2~次,它被称为特征值 5 ~5~代数重数 (algebraic multiplicity) ~(\textbf{algebraic multiplicity})~。同理,λ=3 \lambda=3~ λ=1 ~\lambda=1~的代数重数都是 1 ~1~。代数重数表示特征值在特征多项式中作为根的重数,它是特征方程求解和矩阵性质分析的重要概念。

4. 特征多项式和相似矩阵

4.1 相似矩阵的定义

特征多项式描述了矩阵的特征值及其代数重数,这些特征值决定了矩阵在线性变换中表现出的缩放、旋转等行为。在实际应用中,我们常常引入相似变换这一工具,它能够将矩阵转化为更简单的形式(如对角矩阵),同时保持矩阵的特征值和特征多项式不变。下面是相似矩阵的定义:

4.2 相似矩阵的几何意义

相似矩阵反映了同一个线性变换在不同基下的表示形式。例如在非标准基下的旋转变换矩阵 RB(θ) ~\mathbf{R}_\mathcal{B}(\theta)~和标准基下的旋转矩阵 RE(θ) ~\mathbf{R}_\mathcal{E}(\theta)~就是一对相似矩阵。在非标准基 B ~\mathcal{B}~做旋转时,为了方便,我们通常会先把非标准基下的向量转换到非标准基下,然后在标准基下执行旋转变换 RE(θ) ~\mathbf{R}_\mathcal{E}(\theta)~,最后再从标准基下变换回非标准基下。请观察下面的动画过程:

开通会员解锁全部动画

上例中, 非标准基 B ~\mathcal{B}~、基 B ~\mathcal{B}~到标准基 E ~\mathcal{E}~的变换矩阵如下:
B={[02],[11]},EBP=[0121]\mathcal{B}= \left\{ \begin{bmatrix}0 \\2\end{bmatrix}, \begin{bmatrix}1 \\ -1\end{bmatrix} \right\},\quad \overset{\normalsize \mathbf{P}}{\raisebox{-1ex}{\tiny \(\mathcal{E} \kern-0.5em \leftarrow \kern-0.5em \mathcal{B}\)}} =\begin{bmatrix} 0 & 1\\ 2 & -1 \end{bmatrix}
又知标准基下的旋转矩阵如下:
RE(θ)=[cosθsinθsinθcosθ]\mathbf{R}_\mathcal{E}(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}
那么,容易求得在非标准基 B ~\mathcal{B}~下的旋转矩阵为:
RB(θ)=EBPRE(θ)RE(θ)BEP=[0121][cosθsinθsinθcosθ][0121]1=[cosθ+sinθcosθ2cosθcosθsinθ]\begin{align*}\mathbf{R}_\mathcal{B}(\theta)&= \overset{\smash{\raisebox{-0.5ex}{$\mathbf{P}$}}}{\raisebox{-1.5ex}{\tiny \(\mathcal{E} \kern-0.5em \leftarrow \kern-0.5em \mathcal{B}\)}}\, \vphantom{\mathbf{R}_\mathcal{E}(\theta)}\mathbf{R}_\mathcal{E}(\theta)\, \overset{\smash{\raisebox{-0.5ex}{$\mathbf{P}$}}}{\raisebox{-1.5ex}{\tiny \(\mathcal{B} \kern-0.5em \leftarrow \kern-0.5em \mathcal{E}\)}}\\[2ex] &= \begin{bmatrix} 0 & 1\\ 2 & -1 \end{bmatrix} \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \begin{bmatrix} 0 & 1\\ 2 & -1 \end{bmatrix}^{-1}\\[4ex] &=\begin{bmatrix} \cos\theta + \sin\theta & -\cos\theta \\ 2\cos\theta & -\cos\theta - \sin\theta \end{bmatrix} \end{align*}

4.3 相似矩阵的性质

相似矩阵不仅能够通过不同的矩阵形式来描述相同的线性变换,它们还拥有相同的特征多项式和特征值。有如下定理:

  1. 假设条件
    • B=P1AP\mathbf{B}=\mathbf{P}^{-1}\mathbf{A}\mathbf{P},其中 A ~\mathbf{A}~ B ~\mathbf{B}~ n×n ~n\times n~矩阵, P ~\mathbf{P}~是可逆矩阵。

  2. 转换特征多项式

    • 考虑矩阵BλI\mathbf{B}-\lambda\mathbf{I}
      BλI=P1APλP1P=P1(AλI)P\mathbf{B} - \lambda \mathbf{I} = \mathbf{P}^{-1}\mathbf{A}\mathbf{P} - \lambda \mathbf{P}^{-1}\mathbf{P} = \mathbf{P}^{-1}(\mathbf{A} - \lambda \mathbf{I})\mathbf{P}
      这说明BλI\mathbf{B}-\lambda\mathbf{I}AλI\mathbf{A}-\lambda\mathbf{I}是相似矩阵。
  3. 使用行列式性质
    • 根据行列式的性质:
      det(BλI)=det[P1(AλI)P]=det(P1)det(AλI)det(P)=det(AλI)\begin{align*} \det(\mathbf{B} - \lambda \mathbf{I}) &= \det\big[\mathbf{P}^{-1}(\mathbf{A} - \lambda \mathbf{I})\mathbf{P}\big] \\[3ex] &= \det(\mathbf{P}^{-1}) \cdot \det(\mathbf{A} - \lambda \mathbf{I}) \cdot \det(\mathbf{P})\\[2ex] &= \det(\mathbf{A} - \lambda \mathbf{I}) \end{align*}
      这说明矩阵 A ~\mathbf{A}~ B ~\mathbf{B}~的特征多项式相同。
  4. 结论
    • 矩阵 A ~\mathbf{A}~ B ~\mathbf{B}~的特征多项式相同,它们的特征值(包括重数)完全一致,定理得证。

相似矩阵可以用来简化复杂矩阵的计算,最常见的用途是通过对角化将矩阵分解为更易于分析的形式。在动力系统分析中,相似矩阵用于研究系统的长期行为,例如稳定性和振荡模式。

5. 特征值与离散动力系统

我们来讨论一种离散动力系统,它用于研究系统在离散时间上的变化规律,分析系统的稳定性、周期性以及随时间推移的长期行为。给定一个动力系统,其演化由以下方程定义:
xk+1=Axk,x0=[0.60.4]\mathbf{x}_{k+1} = \mathbf{A} \mathbf{x}_k, \quad \mathbf{x}_0 = \begin{bmatrix} 0.6 \\ 0.4 \end{bmatrix}
其中,矩阵 A ~\mathbf{A}~为:
A=[0.950.030.050.97]\mathbf{A} = \begin{bmatrix} 0.95 & 0.03 \\ 0.05 & 0.97 \end{bmatrix}
接下来,我们来分析该动力系统的长期行为,即 k ~k\rightarrow \infty~时状态 xk ~\mathbf{x}_k~的变化趋势。下面是具体的求解步骤:

特征值通过特征方程det(AλI)=0\text{det}\,(\mathbf{A}-\lambda \mathbf{I})=0计算:
det[0.95λ0.030.050.97λ]=(0.95λ)(0.97λ)0.030.05\det\begin{bmatrix} 0.95 - \lambda & 0.03 \\ 0.05 & 0.97 - \lambda \end{bmatrix} = (0.95 - \lambda)(0.97 - \lambda) - 0.03 \cdot 0.05
化简后得到:
λ21.92λ+0.92=0\lambda^2-1.92\lambda+0.92=0
求解特征值:
λ=1.92±(1.92)240.922=1.92±0.082\lambda = \frac{1.92 \pm \sqrt{(1.92)^2 - 4 \cdot 0.92}}{2} = \frac{1.92 \pm 0.08}{2}
结果为:
λ1=1,λ2=0.92\lambda_1=1,\quad\lambda_2=0.92
对应的特征向量分别为:
v1=[35],v2=[11]\mathbf{v}_1 = \begin{bmatrix} 3 \\ 5 \end{bmatrix}, \quad \mathbf{v}_2 = \begin{bmatrix} 1 \\ -1 \end{bmatrix}

初始状态向量 x0=[0.60.4] ~\mathbf{x}_0=\begin{bmatrix} 0.6\\0.4 \end{bmatrix}~可以表示为特征向量的线性组合:
x0=c1v1+c2v2\mathbf{x}_0=c_1\mathbf{v}_1+c_2\mathbf{v}_2
求解系数 c1 ~c_1~ c2 ~c_2~
[0.60.4]=c1[35]+c2[11]\begin{bmatrix} 0.6 \\ 0.4 \end{bmatrix} = c_1 \begin{bmatrix} 3 \\ 5 \end{bmatrix} + c_2 \begin{bmatrix} 1 \\ -1 \end{bmatrix}
用矩阵方法求解:
[3151][c1c2]=[0.60.4]\begin{bmatrix} 3 & 1 \\ 5 & -1 \end{bmatrix} \begin{bmatrix} c_1 \\ c_2 \end{bmatrix} = \begin{bmatrix} 0.6 \\ 0.4 \end{bmatrix}
解得:
c1=0.125,c2=0.225c_1 = 0.125, \quad c_2 = 0.225

由于特征向量对应的特征值满足:
Av1=λ1v1=v1,Av2=λ2v2=0.92v2\mathbf{A} \mathbf{v}_1 = \lambda_1 \mathbf{v}_1 = \mathbf{v}_1, \quad \mathbf{A} \mathbf{v}_2 = \lambda_2 \mathbf{v}_2 = 0.92 \mathbf{v}_2
可以得到系统在第 k ~k~步的状态:
xk=c1λ1kv1+c2λ2kv2\mathbf{x}_k = c_1 \lambda_1^k \mathbf{v}_1 + c_2 \lambda_2^k \mathbf{v}_2
代入特征值和初始系数:
xk=0.1251k[35]+0.2250.92k[11]\mathbf{x}_k = 0.125 \cdot 1^k \begin{bmatrix} 3 \\ 5 \end{bmatrix} + 0.225 \cdot 0.92^k \begin{bmatrix} 1 \\ -1 \end{bmatrix}

 k ~k\rightarrow \infty~时,特征值 λ2=0.921 ~\lambda_2=0.92 \leq 1~,因此 (0.92)k0 ~(0.92)^k\rightarrow 0~。系统状态趋近于:
xk0.125[35]=[0.3750.625]\mathbf{x}_k \to 0.125 \begin{bmatrix} 3 \\ 5 \end{bmatrix} = \begin{bmatrix} 0.375 \\ 0.625 \end{bmatrix}
这表明,系统最终稳定在一个平衡状态,该状态由特征值 λ1=1 ~\lambda_1=1~的特征向量决定。

系统的长期行为由特征值最大的模决定。在本例中,λ1=1 \lambda_1=1~是唯一的稳定特征值,主导了系统的最终状态。初始状态在特征向量的分解中,快速衰减的分量(由 λ2=0.92 ~\lambda_2=0.92~决定)对长期行为没有影响。该分析方法广泛应用于 Markov ~\textbf{Markov}~链(马尔可夫链)、人口迁移模型等动力系统中。