Logo

特征向量和特征值

1. 特征向量和特征值的定义

在线性变换中,有一种特殊情况,即变换后的向量方向保持不变,仅在长度上发生缩放。这种特性在很多应用中很有价值,例如在人脸识别中,算法通过提取脸部几何特征(如眼睛间距与鼻子宽度的比例),来生成数据的主要特征(由向量表示)。这些特征在环境光照、人脸表情、拍摄角度等外部条件变化下依然能够保持相对稳定,从而我们可以忽略发型、妆容等无关信息,算法只依靠脸部的主要特征就可以确定人脸对应的身份信息。接下来,我们通过一个具体的示例来直观展示这种变换的过程:

开通会员解锁全部动画

上面示例中的矩阵 A ~\mathbf{A}~对向量 v ~\mathbf{v}~施加变换后,得到的向量 Av ~\mathbf{Av}~相比 v ~\mathbf{v}~的方向并没有发生变化,它仅在长度上放大了 2 ~2~倍, 我们称这个放大倍数 2 ~2~为矩阵 A ~\mathbf{A}~特征值 (Eigenvalue) ~(\textbf{Eigenvalue})~。向量 v ~\mathbf{v}~称为与 2 ~2~对应的特征向量 (Eigenvector) ~(\textbf{Eigenvector})~。更为严谨的定义如下:

2. 判断特征向量与特征值

我们首先讨论一个基本问题:如何判断某个向量是否为矩阵 A ~\mathbf{A}~的特征向量?根据定义,这可以通过以下步骤判断:计算矩阵 A ~\mathbf{A}~与向量 v ~\mathbf{v}~的乘积,并检查结果是否等于某个标量 λ ~\lambda~乘以 v ~\mathbf{v}~。如果存在这样的 λ ~\lambda~,则 v ~\mathbf{v}~ A ~\mathbf{A}~的特征向量,而 λ ~\lambda~是对应的特征值。以下是具体的示例:

开通会员解锁全部动画

我们再来看另一个基本问题:如何判断某个标量值是否为矩阵 A ~\mathbf{A}~的特征值。求解这个问题的步骤也比较简单,请看下面的示例(判断标量 7 ~7~是否为矩阵 A=[1652] ~\mathbf{A}=\begin{bmatrix}1 & 6 \\ 5 & 2\end{bmatrix}~的特征值):

开通会员解锁全部动画

判断标量值 λ ~\lambda~是否为矩阵 A ~\mathbf{A}~的特征值,根据定义,实际就是求矩阵方程(AλI)x=0(\mathbf{A}-\lambda\mathbf{I})\,\mathbf{x}=\mathbf{0}是否存在非平凡解(即 x0 ~\mathbf{x}\neq 0~)。经过计算,标量 7 ~7~是矩阵 A ~\mathbf{A}~的特征值,它对应的特征向量 t1[11]T, t10 ~t_1\begin{bmatrix}1 & 1\end{bmatrix}^T,~t_1\neq 0~。 除了标量 λ1=7 ~\lambda_1=7~之外,标量 λ2=4 ~\lambda_2=-4~也是矩阵 A ~\mathbf{A}~的特征值, λ2 ~\lambda_2~对应的特征向量为 t2[65]T, t20 ~t_2\begin{bmatrix}-6 & 5\end{bmatrix}^T,~t_2\neq 0~下一节我们会介绍求特征值的方法)。

3. 特征空间与几何意义

方程(AλI)x=0(\mathbf{A}-\lambda\mathbf{I})\mathbf{x}=\mathbf{0}的所有解构成矩阵 AλI ~\mathbf{A}-\lambda\mathbf{I}~零空间,它称为矩阵 A ~\mathbf{A}~对应特征值 λ ~\lambda~特征空间 (eigenspace) ~(\textbf{eigenspace})~。特征空间是向量空间 Rn ~\mathbb{R^n}~的一个子空间,它包含所有特征向量以及零空间。其几何意义在于它揭示了在 xAx ~\mathbf{\mathbf{x}\mapsto \mathbf{A}\mathbf{x}}~变换中 ,哪些向量在矩阵作用下仅被缩放而方向保持不变。如下动画所示,每个特征值对应一条通过原点的直线。

开通会员解锁全部动画

4. 特征空间的基

求特征空间的基的方法如下:对于给定的矩阵 A ~\mathbf{A}~和特征值 λ ~\lambda~,构造矩阵AλI\mathbf{A}-\lambda\mathbf{I},并求解齐次线性方程组(AλI)x=0(\mathbf{A}-\lambda\mathbf{I})\mathbf{x}=\mathbf{0}。通过行化简得到解的通解形式,从中提取线性无关的特征向量,这些向量构成特征空间的基。下面的动画过程展示了这个过程:

开通会员解锁全部动画

示例中矩阵 A ~\mathbf{A}~的特征值 λ=2 ~\lambda=2~对应的特征空间的一组基如下(x2=2 x_2=2~):
B={[120],[301]}\mathcal{B}=\left\{\begin{bmatrix}1 \\ 2 \\0\end{bmatrix},\begin{bmatrix}-3 \\ 0 \\1\end{bmatrix}\right\}
它对应的特征空间是 R3 ~\mathbb{R^3}~中的一个二维子空间。

5. 三角矩阵的特征值性质

在研究特征值和特征向量的过程中,计算特征值是理解矩阵特性的重要一步。特征值的分布决定了特征空间的结构。对于三角矩阵,其特征值计算更为简单。有如下定理:

  1. 假设形式:特征值定义
    • 根据特征值的定义,标量 λ ~\lambda~的矩阵 A ~\mathbf{A}~的特征值,当且仅当方程(AλI)x=0(\mathbf{A}-\lambda\mathbf{I})\mathbf{x}=\mathbf{0}存在非零解。

  2. 计算矩阵AλI\mathbf{A}-\lambda\mathbf{I}的形式

    • 对于一个上三角矩阵 A ~\mathbf{A}~AλI\mathbf{A}-\lambda\mathbf{I}的形式是:
      AλI=[a11λa12a130a22λa2300a33λ]\mathbf{A} - \lambda \mathbf{I} = \begin{bmatrix} a_{11} - \lambda & a_{12} & a_{13} \\ 0 & a_{22} - \lambda & a_{23} \\ 0 & 0 & a_{33} - \lambda \end{bmatrix}
  3. 自由变量的存在条件
    • 非零解的存在取决于矩阵(AλI)(\mathbf{A}-\lambda\mathbf{I})至少有一个自由变量。由于该矩阵的结构是三角矩阵,自由变量的出现只需要主对角线上某一元素为零。

  4. 特征值的条件
    • 当且仅当 λ=a11,a22,a33 ~\lambda=a_{11},a_{22},a_{33}~中的某一个值时,矩阵(AλI)(\mathbf{A}-\lambda\mathbf{I})的对应对角线元素为零,方程(AλI)x=0(\mathbf{A}-\lambda\mathbf{I})\mathbf{x}=\mathbf{0}才有非平凡解。
  5. 结论
    • 因此,上三角矩阵的特征值是其主对角线上的元素。

定理 1 ~1~的结论可以帮助我们快速判断三角矩阵的特征值。请看下面这个示例:

开通会员解锁全部动画

需要特别注意的是特征值为 0 ~0~的情况:当矩阵 A ~\mathbf{A}~存在特征值为 0 ~0~时,满足方程:
Ax=0xAx=0\mathbf{A}\mathbf{x}=0\mathbf{x}\quad \text{或}\quad \mathbf{A}\mathbf{x}=\mathbf{0}
这表明矩阵 A ~\mathbf{A}~的线性变换将与 λ=0 ~\lambda=0~对应的特征向量 x ~\mathbf{x}~映射到零向量,几何上可以理解为这些向量被压缩到原点。另外,若三角矩阵的对角线元素存在 0 ~0~,也意味着矩阵 A ~\mathbf{A}~不可逆

6. 特征向量的线性独立性

特征空间的基体现了特征向量的线性独立性,而特征值的不同性则与特征向量的线性无关性密切相关。这是特征向量的一个重要特性,有如下定理:

  1. 假设线性相关
    • 假设{v1,v2,,vr}\{\mathbf{v}_1,\mathbf{v}_2,\dots,\mathbf{v}_r\}是线性相关的集合,根据线性相关定义,存在某个特征向量 vp+1 ~\mathbf{v}_{p+1}~可由前面的特征向量线性表示:
      c1v1+c2v2++cpvp=vp+1c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_p\mathbf{v}_p = \mathbf{v}_{p+1}
  2. 两边乘以矩阵 A ~\mathbf{A}~

    • 两边同时乘以矩阵 A ~\mathbf{A}~,并利用特征向量的性质 (Avk=λkvk) ~(\mathbf{A}\mathbf{v}_k=\lambda_k\mathbf{v}_k)~,得到:
      c1λ1v1+c2λ2v2++cpλpvp=λp+1vp+1c_1\lambda_1\mathbf{v}_1 + c_2\lambda_2\mathbf{v}_2 + \cdots + c_p\lambda_p\mathbf{v}_p = \lambda_{p+1}\mathbf{v}_{p+1}
  3. 结合第一步的等式消去 vp+1 ~\mathbf{v}_{p+1}~
    • 用第一步的等式替换 vp+1 ~\mathbf{v}_{p+1}~,得到:
      c1(λ1λp+1)v1+c2(λ2λp+1)v2++cp(λpλp+1)vp=0c_1(\lambda_1 - \lambda_{p+1})\mathbf{v}_1 + c_2(\lambda_2 - \lambda_{p+1})\mathbf{v}_2 + \cdots + c_p(\lambda_p - \lambda_{p+1})\mathbf{v}_p = \mathbf{0}
  4. 利用线性无关性与特征值不同性
    • 因为{v1,v2,,vr}\{\mathbf{v}_1,\mathbf{v}_2,\dots,\mathbf{v}_r\}是线性无关的,且特征值 λ1,λ2,,λp ~\lambda_1,\lambda_2,\dots,\lambda_p~不同,因此 (λiλp+1)0 ~(\lambda_i-\lambda_{p + 1})\neq 0~对所有 i=1,2,,p ~i=1,2,\dots,p~成立。这使得所有系数 c1,c2,,cp ~c_1,c_2,\dots,c_p~必须都为 0 ~0~
  5. 矛盾与结论
    •  c1,c2,,cp=0 ~c_1,c_2,\dots,c_p=0~导致 vp+1=0 ~\mathbf{v}_{p+1}=\mathbf{0}~,这与假设 vp+1 ~\mathbf{v}_{p+1}~是非零向量(特征向量的定义决定的)的定义矛盾。因此,假设不成立,{v1,v2,,vr}\{\mathbf{v}_1,\mathbf{v}_2,\dots,\mathbf{v}_r\}是线性无关的。

定理 2 ~2~将特征向量的几何意义(方向)与代数性质(线性无关)相结合,说明不同特征值对应的特征向量可以构成线性无关的基。这一性质可被用户矩阵分解、数据降维等实际应用中。

7. 特征向量在差分方程中的应用