Logo

特征向量与线性变换

1. 特征值和特征向量的概念推广

这一节我们探讨特征值和特征向量在更广泛的线性变换(不仅仅限于矩阵)中的应用。首先,我们从定义上对特征值和特征向量的概念进行扩展:

将特征值和特征向量的概念推广到一般的线性变换后,我们不仅可以在任何向量空间(包括函数空间、信号空间和多项式空间等)中应用这一概念,还能更深入地研究变换的核心几何特性,即:特征向量的方向不变性和特征值反应变化后的缩放程度)。下面我们来讨论一个在离散信号空间中的问题,通过研究余弦信号在特定线性变换下的特征值和特征向量,揭示信号的频率特性和变换的核心行为。给定信号:
{sk}={cos(fkπ4)}\{s_k\} = \left\{\cos\left(\frac{fk\pi}{4}\right)\right\}
定义变换 D ~D~为左移 2 ~2~位:
D({sk})={sk+2}D(\{s_k\}) = \{s_{k+2}\}
有如下结论:

此时信号为:
sk=cos(fkπ4)=cos(kπ4)s_k = \cos\left(\frac{fk\pi}{4}\right) = \cos\left(\frac{k\pi}{4}\right)
变换 D ~D~定义为sk=sk+2s_k = s_{k+2},则:
sk+2=cos((k+2)π4)s_{k+2} = \cos\left(\frac{(k+2)\pi}{4}\right)
利用三角函数公式cos(a+b)=cos(a)cos(b)sin(a)sin(b)\cos(a + b) = \cos(a)\cos(b) - \sin(a)\sin(b)
sk+2=cos(kπ4)cos(π2)sin(kπ4)sin(π2)=0cos(kπ4)1sin(kπ4)=sin(kπ4)\begin{align*}s_{k+2} &= \cos\left(\frac{k\pi}{4}\right)\cos\left(\frac{\pi}{2}\right) - \sin\left(\frac{k\pi}{4}\right)\sin\left(\frac{\pi}{2}\right)\\[3ex] &=0 \cdot \cos\left(\frac{k\pi}{4}\right) - 1 \cdot \sin\left(\frac{k\pi}{4}\right)\\[3ex] &= -\sin\left(\frac{k\pi}{4}\right) \end{align*}
结论:当 f=1 ~f=1~时,信号 sk ~s_k~经变换 D ~D~后,不能表示为原信号的数值倍数 λsk ~\lambda s_k~因此 sk ~s_k~不是变换 D ~D~的特征向量

此时信号为:
sk=cos(fkπ4)=cos(2kπ4)=cos(kπ2)s_k = \cos\left(\frac{fk\pi}{4}\right) = \cos\left(\frac{2k\pi}{4}\right) = \cos\left(\frac{k\pi}{2}\right)
变换 D ~D~定义为sk=sk+2s_k = s_{k+2},则:
sk+2=cos(2(k+2)π4)=cos(2kπ4+π)=cos(kπ2)\begin{align*}s_{k+2} &= \cos\left(\frac{2(k+2)\pi}{4}\right) = \cos\left(\frac{2k\pi}{4} + \pi\right)\\[3ex] &=-\cos\left(\frac{k\pi}{2}\right) \end{align*}
结论:当 f=2 ~f=2~时,信号sk=cos(kπ2)s_k = \cos\left(\frac{k\pi}{2}\right)满足变换 D ~D~的定义:
D(sk)=λskD(s_k)=\lambda s_k
其中 λ=1 ~\lambda=-1~。因此, sk ~s_k~是变换 D ~D~的特征向量,对应的特征值为 1 ~-1~

下面的动画过程演示了这两种变换:

开通会员解锁全部动画

更一般地,当 f ~f~为偶数时,对应的信号 sk ~s_k~都是变换 D ~D~的特征向量。即,当 f=2n~f=2n(nZ)(n \in \mathbb{Z})时:
sk+2=(1)nsks_{k+2}=(-1)^ns_k
特征值为 (1)n ~(-1)^n~

2. 线性变换的矩阵

开通会员解锁全部动画

坐标系一节中我们介绍过:任何向量空间中的向量都可以通过选定一组基一一映射到 Rn ~\mathbb{R^n}~空间中的坐标向量,从而我们可以将线性变换 T ~T~表示为一个矩阵。具体来说,假设 V ~V~是一个 n~n-维向量空间,选取基B={b1,b2,,bn}\mathbb{B} = \{\mathbf{b}_1, \mathbf{b}_2, \dots, \mathbf{b}_n\}。任意向量 xV ~\mathbf{x}\in V~可以表示为基向量的线性组合:
x=r1b1+r2b2++rnbn\mathbf{x} = r_1 \mathbf{b}_1 + r_2 \mathbf{b}_2 + \cdots + r_n \mathbf{b}_n
在基 B ~\mathcal{B}~下, x ~\mathbf{x}~的坐标向量为:
[x]B=[r1r2rn][\mathbf{x}]_\mathcal{B} = \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_n \end{bmatrix}
线性变换 T ~T~的作用是将向量 x ~\mathbf{x}~映射到 T(x) ~T(\mathbf{x})~,即:
T(x)=T(r1b1++rnbn)=r1T(b1)++rnT(bn)(1)T(\mathbf{x}) = T(r_1 \mathbf{b}_1 + \cdots + r_n \mathbf{b}_n)= r_1 T(\mathbf{b}_1) + \cdots + r_n T(\mathbf{b}_n)\tag{1}
由于从 V ~V~ Rn ~\mathbb{R^n}~的坐标映射是线性的,可以写成:
[T(x)]B=r1[T(b1)]B++rn[T(bn)]B(2)[T(\mathbf{x})]_\mathcal{B} = r_1 [T(\mathbf{b}_1)]_\mathcal{B} + \cdots + r_n [T(\mathbf{b}_n)]_\mathcal{B}\tag{2}
我们可以用矩阵表示这个线性变换。定义矩阵 M ~\mathbf{M}~
M=[[T(b1)]B[T(b2)]B[T(bn)]B](3)\colorbox{#F0F8FF}{$M = \begin{bmatrix} [T(\mathbf{b}_1)]_\mathbb{B} & [T(\mathbf{b}_2)]_\mathbb{B} & \cdots & [T(\mathbf{b}_n)]_\mathbb{B} \end{bmatrix}\tag{3}$}
其中,矩阵的每一列对应基向量经过变换后的坐标向量。于是,线性变换 T ~T~可以表示为:
[T(x)]B=M[x]B(4)\colorbox{#F0F8FF}{$[T(\mathbf{x})]_\mathcal{B} = \mathbf{M}[\mathbf{x}]_\mathcal{B}\tag{4}$}
这表明,在基 B ~\mathcal{B}~下,线性变换 T ~T~的作用等价于用矩阵 M ~\mathbf{M}~左乘坐标向量 [x]B ~[\mathbf{x}]_\mathcal{B}~。 矩阵 M ~\mathbf{M}~被称为线性变换 T ~T~在基 B ~\mathcal{B}~下的矩阵表示,记为 [T]B ~[T]_\mathcal{B}~。这种表示方法不仅让我们能够通过矩阵运算研究线性变换的性质,还能更清晰地理解特征向量与线性变换之间的关系。

开通会员解锁全部动画

3. 矩阵表示的计算示例

以下两个示例分别展示了如何构造线性变换的矩阵表示,以及如何验证矩阵表示与线性变换的等价性。第一个示例关注基向量在变换下的映射,第二个示例则以多项式求导为例,进一步展示线性变换在特定基下的矩阵表示方法。

3.1 基向量变换的矩阵表示

给定一个二维向量空间 V ~V~,基为 B={b1,b2} ~\mathcal{B}=\{\mathbf{b}_1,\mathbf{b}_2\}~。定义了线性变换T:VVT:V\rightarrow V,满足:
T(b1)=3b1b2,T(b2)=2b1+b2T(\mathbf{b}_1) = 3\mathbf{b}_1 - \mathbf{b}_2, \quad T(\mathbf{b}_2) = 2\mathbf{b}_1 + \mathbf{b}_2
下面动画演示计算 T ~T~在基 B ~\mathcal{B}~下的矩阵表示 M ~\mathbf{M}~

开通会员解锁全部动画

3.2 多项式求导的矩阵表示

给定一个线性变换(求导运算)T:P2P1T:\mathbb{P}_2 \rightarrow \mathbb{P}_1
T(a0+a1t+a2t2)=a1+2a2tT(a_0 + a_1 t + a_2 t^2) = a_1 + 2a_2 t
给定标准基B={1,t,t2}\mathcal{B}=\{1,t,t^2\},需要求:

根据公式 (3) ~(3)~,矩阵 M ~\mathbf{M}~为:
M=[[T(b1)]B[T(b2)]B[T(bn)]B]\mathbf{M} = \begin{bmatrix} [T(\mathbf{b}_1)]_\mathbb{B} & [T(\mathbf{b}_2)]_\mathbb{B} & \cdots & [T(\mathbf{b}_n)]_\mathbb{B} \end{bmatrix}
我们只需要分别计算基向量的变换后的坐标向量即可:
T(b1)=T(1)=0[T(b1)]B=[000]TT(b2)=T(t)=1[T(b2)]B=[100]TT(b3)=T(t2)=2t[T(b2)]B=[020]T\begin{align*}T(\mathcal{b}_1)&=T(1)=0 \quad &\Rightarrow \quad [T(\mathcal{b}_1)]_\mathcal{B} = \begin{bmatrix} 0 & 0 & 0 \end{bmatrix}^T\\[2ex] T(\mathcal{b}_2)&=T(t)=1 \quad &\Rightarrow \quad [T(\mathcal{b}_2)]_\mathcal{B} = \begin{bmatrix} 1 & 0 & 0 \end{bmatrix}^T\\[2ex] T(\mathcal{b}_3)&=T(t^2)=2t \quad &\Rightarrow \quad [T(\mathcal{b}_2)]_\mathcal{B} = \begin{bmatrix} 0 & 2 & 0 \end{bmatrix}^T \end{align*}
由此可得矩阵 M ~\mathbf{M}~,即变换 T ~T~在基 B ~\mathcal{B}~下的矩阵:
M=[T]B=[010002000]\mathbf{M} = [T]_\mathcal{B} = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 2 \\ 0 & 0 & 0 \end{bmatrix}

这其实是验证它和公式 (4) ~(4)~是等价的。首先,任意p(t)=a0+a1t+a2t2p(t)=a_0 + a_1 t + a_2 t^2的坐标向量为:
[p]B=[a0a1a2][p]_\mathcal{B} = \begin{bmatrix} a_0 \\ a_1 \\ a_2 \end{bmatrix}
变换T(p)=a1+2a2tT(p) = a_1 + 2a_2t,对应的坐标向量为:
[T(p)]B=[a12a20][T(p)]_\mathcal{B} = \begin{bmatrix} a_1 \\ 2a_2 \\ 0 \end{bmatrix}
根据第一步中求的的矩阵 [T]B ~[T]_\mathcal{B}~计算:
[T]B[p]B=[010002000][a0a1a2]=[a12a20][T]_\mathcal{B} [p]_\mathcal{B} = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 2 \\ 0 & 0 & 0 \end{bmatrix} \begin{bmatrix} a_0 \\ a_1 \\ a_2 \end{bmatrix} = \begin{bmatrix} a_1 \\ 2a_2 \\ 0 \end{bmatrix}
结果与 [T(p)]B ~[T(p)]_\mathcal{B}~一致,验证成立。

这个示例说明,多项式求导问题可以通过矩阵运算来完成。

开通会员解锁全部动画

4.  Rn ~\mathbb{R^n}~上的线性变换

线性变换 T ~T~可以用矩阵 A ~\mathbf{A}~来表示,其中T(x)=AxT(\mathbf{x})=\mathbf{A}\mathbf{x}。出于简化运算的考虑,我们自然会去尝试对矩阵 A ~\mathbf{A}~进行对角化处理。如果矩阵 A ~\mathbf{A}~可对角化,那么可以找到一组由特征向量构成的基 B ~\mathcal{B}~,使得 T ~T~在基 B ~\mathcal{B}~下的矩阵是对角矩阵 D ~\mathbf{D}~。有如下定理:

  1. 定义基与变换矩阵

    • 假设 P ~\mathbf{P}~的列向量为b1,b2,,bn\mathbf{b}_1,\mathbf{b}_2,\dots,\mathbf{b}_n,它们组成基B={b1,,bn}\mathcal{B}=\{\mathbf{b}_1,\dots,\mathbf{b}_n\}
    • P=[b1bn]\mathbf{P}=[\mathbf{b}_1 \dots \mathbf{b}_n],是基 B ~\mathcal{B}~的坐标变换矩阵。
  2. 基变换的关系

    • 对任意向量 x ~\mathbf{x}~有:
      P[x]B=x,[xB=P1x\mathbf{P}[\mathbf{x}]_\mathcal{B}=\mathbf{x},\quad [\mathbf{x}_\mathcal{B}=\mathbf{P}^{-1}\mathbf{x}
  3. 计算 T ~T~在基 B ~\mathcal{B}~下的表示:

    • 线性变换T(x=AxT(\mathbf{x}=\mathbf{A}\mathbf{x}。在基 B ~\mathcal{B}~下的矩阵表示为:
      [T]B=[[T(b1)]B[T(bn)]B][\mathbf{T}]_{\mathcal{B}} = [[\mathbf{T}(\mathbf{b}_1)]_{\mathcal{B}} \dots [\mathbf{T}(\mathbf{b}_n)]_{\mathcal{B}}]
    • 因为T(x)=AxT(\mathbf{x})=\mathbf{A}\mathbf{x},得:
      [T(bi)]B=[Abi]B[\mathbf{T}(\mathbf{b}_i)]_{\mathcal{B}} = [\mathbf{A} \mathbf{b}_i]_{\mathcal{B}}
  4. 应用基变换
    • 利用基变换关系:
      [Abi]B=P1Abi[\mathbf{A} \mathbf{b}_i]_{\mathcal{B}} = \mathbf{P}^{-1} \mathbf{A} \mathbf{b}_i
    • 将所有基向量组合:
      [T]B=[P1Ab1P1Abn]=P1A[b1bn]=P1AP[\mathbf{T}]_{\mathcal{B}} = [\mathbf{P}^{-1} \mathbf{A} \mathbf{b}_1 \dots \mathbf{P}^{-1} \mathbf{A} \mathbf{b}_n] = \mathbf{P}^{-1} \mathbf{A} [\mathbf{b}_1 \dots \mathbf{b}_n] = \mathbf{P}^{-1} \mathbf{A} \mathbf{P}
  5. 结合对角化条件
    • 因为A=PDP1\mathbf{A}=\mathbf{P}\mathbf{D}\mathbf{P}^{-1},所以:
      [T]B=P1AP=D[\mathbf{T}]_{\mathcal{B}} = \mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \mathbf{D}

定理 8 ~8~的作用是将一个复杂的线性变换简化为对角矩阵的形式。下面我们从几何角度来观察这个过程:

开通会员解锁全部动画

上述示例展示了在不同基下对同一线性变换的表示形式。通过选择矩阵 A ~\mathbf{A}~的特征向量作为新基 B ~\mathcal{B}~,原来的矩阵 A ~\mathbf{A}~被转化为对角矩阵 D ~\mathbf{D}~。这种变换的好处是,在基 B ~\mathcal{B}~中,矩阵 A ~\mathbf{A}~的线性变换等价于对每个基向量按特征值进行伸缩,而不涉及基向量间的混合操作。

5. 矩阵相似性与变换表示

定理 8 ~8~中的矩阵 A ~\mathbf{A}~ D ~\mathbf{D}~是一对相似矩阵,它们在几何上表现为在不同基下的同一个变换(相似矩阵的几何意义)。只不过定理 8 ~8~为了对 A ~\mathbf{A}~实现对角化处理,要求新基 B ~\mathcal{B}~是由矩阵 A ~\mathbf{A}~的特征向量构成,如果不考虑这个条件,我们可以找到其他相似矩阵 C ~\mathbf{C}~,满足A=PCP1\mathbf{A}=\mathbf{P}\mathbf{C}\mathbf{P}^{-1}, 它们也能表示同一个线性变换。

开通会员解锁全部动画

当矩阵 A ~\mathbf{A}~无法对角化时,我们需要寻找其它相似矩阵(例如 Jordan ~\textbf{Jordan}~矩阵)来简化计算。例如下面的矩阵:
A=[4948]\mathbf{A}=\begin{bmatrix}4 & -9 \\ 4 & -8\end{bmatrix}
它的特征多项式为 (λ+2)2 ~(\lambda+2)^2~,因此它的特征值是 2 ~-2~,代数重数为 2 ~2~。求解特征方程(A+2I)x=0(\mathbf{A}+2\mathbf{I})\mathbf{x}=0,写成增广矩阵并化简得:
[690460][230000]\begin{bmatrix} 6 & -9 & 0 \\ 4 & -6 & 0 \end{bmatrix} \longrightarrow \begin{bmatrix} 2 & -3 & 0 \\ 0 & 0 & 0 \end{bmatrix}
解得特征向量为:b1=[32]T\mathbf{b}_1=\begin{bmatrix}3 & 2\end{bmatrix}^T。这说明 A ~\mathbf{A}~的几何重数少于代数重数,因此矩阵 A ~\mathbf{A}~无法进行对角化处理。我们可以将矩阵转化为 Jordan ~\textbf{Jordan}~形式,那么就需要继续寻找广义特征向量,满足:
(A+2I)2x=0(A+2I)x0(A + 2\mathbf{I})^2 \mathbf{x} = 0 \quad \text{但} \quad (A + 2\mathbf{I}) \mathbf{x} \neq 0
广义特征向量和普通特征向量之间存在递归关系:
(A+2I)b2=b1(\mathbf{A}+2\mathbf{I})\mathbf{b}_2=\mathbf{b}_1
求解:
(A+2I)b2=[6946][x1x2]=[32](\mathbf{A} + 2\mathbf{I}) \mathbf{b}_2 = \begin{bmatrix} 6 & -9 \\ 4 & -6 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 3 \\ 2 \end{bmatrix}
得到广义特征向量 b2=[21]T ~\mathbf{b}_2=\begin{bmatrix}2 & 1\end{bmatrix}^T~。由获取到的特征向量 b1 ~\mathbf{b}_1~和广义特征向量 b2 ~\mathbf{b}_2~构成的基:
P=[b1 b2]=[3221]\mathbf{P} = [\mathbf{b}_1 \ \mathbf{b}_2] = \begin{bmatrix} 3 & 2 \\ 2 & 1 \end{bmatrix}
最后将基变换矩阵 P ~\mathbf{P}~应用与 A ~\mathbf{A}~得:
C=P1AP=[2102]\mathbf{C} = \mathbf{P}^{-1} \mathbf{A} \mathbf{P} = \begin{bmatrix} -2 & 1 \\ 0 & -2 \end{bmatrix}
矩阵 C ~\mathbf{C}~ A ~\mathbf{A}~的相似矩阵,它又称为 A ~\mathbf{A}~ Jordan ~\textbf{Jordan}~形式(若尔当标准型)。