Logo

正交集

1. 正交集的定义与性质

如果一个向量集合{u1,u2,,up}\{ u_1, u_2, \dots, u_p \}在欧几里得空间 Rn ~\mathbb{R^n}~中满足:任意两个不同的向量 ui,uj ~\mathbf{u}_i,\mathbf{u}_j~都是正交的,即:
uiuj=0,iju_i \cdot u_j = 0, \quad \forall i \neq j
那么,这个向量集合称为正交集 (Orthogonal Set)~(\textbf{Orthogonal Set})。请观察下面三维场景中的向量:
这个三维场景中的三个向量如下:
u1=[311],u2=[121],u3=[1/227/2](1)\mathbf{u}_1 = \begin{bmatrix} 3 \\ 1 \\ 1 \end{bmatrix}, \quad \mathbf{u}_2 = \begin{bmatrix} -1 \\ 2 \\ 1 \end{bmatrix}, \quad \mathbf{u}_3 = \begin{bmatrix} -1/2 \\ -2 \\ 7/2 \end{bmatrix} \tag{1}
它们中任意两个向量的点积都为 0 ~0~(相互垂直),因此{u1,u2,u3}\{\mathbf{u}_1,\mathbf{u}_2,\mathbf{u}_3\}是一个正交集。正交集有一个良好的性质,那就是它其中的向量之间线性无关,这一特性使得正交集在构造基 (basis) ~(\textbf{basis})~时极具优势。下面的定理正式描述了这一性质:

假设:存在一组标量c1,c2,,cpc_1, c_2, \dots, c_p,使得:
0=c1u1+c2u2++cpup0 = c_1 \mathbf{u}_1 + c_2 \mathbf{u}_2 + \dots + c_p \mathbf{u}_p
  1. 两边同时与 u1u_1 取内积
    0u1=(c1u1+c2u2++cpup)u10 \cdot \mathbf{u}_1 = (c_1 \mathbf{u}_1 + c_2 \mathbf{u}_2 + \dots + c_p \mathbf{u}_p) \cdot \mathbf{u}_1
  2. 利用内积的线性性展开 对上式展开得:
    (c1u1)u1+(c2u2)u1++(cpup)u1=0(c_1 \mathbf{u}_1) \cdot \mathbf{u}_1 + (c_2 \mathbf{u}_2) \cdot \mathbf{u}_1 + \dots + (c_p \mathbf{u}_p) \cdot \mathbf{u}_1 = 0
  3. 利用正交集的性质,由于 S ~S~是正交集,uiu1=0\mathbf{u}_i \cdot \mathbf{u}_1 = 0i1i \neq 1,因此上式中所有非零项都消失,只剩下:
    c1(u1u1)=0c_1 (\mathbf{u}_1 \cdot \mathbf{u}_1) = 0
  4. 由于u10\mathbf{u}_1 \neq 0,则u1u1>0\mathbf{u}_1 \cdot \mathbf{u}_1 > 0,因此
    c1=0c_1 = 0
  5. u2,u3,,up\mathbf{u}_2, \mathbf{u}_3, \dots, \mathbf{u}_p 依次重复相同操作 类似地,对 u2,u3,,up\mathbf{u}_2, \mathbf{u}_3, \dots, \mathbf{u}_p进行相同的计算,我们可以得到:
    c2=c3==cp=0c_2 = c_3 = \dots = c_p = 0
结论:所有系数 ci=0 ~c_i=0~ 说明集合 S ~S~线性无关。

2. 正交基

在证明了正交集的线性无关性后,我们可以利用这一性质来构造子空间的基。如果一个向量集合既是某个子空间的基,又是正交集,那这组向量集合可被称作正交基 (Orthogonal Basis) ~(\textbf{Orthogonal Basis})~,有如下定义:

正交基不仅能够简化线性组合的计算,还可以直接计算向量在该基下的坐标,而不需要解方程组。下面的定理给出了正交基下的坐标计算公式:

假设:存在一组标量c1,c2,,cpc_1, c_2, \dots, c_p,使得:
0=c1u1+c2u2++cpup0 = c_1 \mathbf{u}_1 + c_2 \mathbf{u}_2 + \dots + c_p \mathbf{u}_p
  1. y\mathbf{y}的线性组合:
    y=c1u1+c2u2++cpup\mathbf{y} = c_1 \mathbf{u}_1 + c_2 \mathbf{u}_2 + \dots + c_p \mathbf{u}_p
    两边与u1\mathbf{u}_1取点积:
    yu1=(c1u1+c2u2++cpup)u1\mathbf{y} \cdot \mathbf{u}_1 = (c_1 \mathbf{u}_1 + c_2 \mathbf{u}_2 + \dots + c_p \mathbf{u}_p) \cdot \mathbf{u}_1
  2. 利用正交性质,根据内积的线性性:
    yu1=c1(u1u1)+c2(u2u1)++cp(upu1)\mathbf{y} \cdot \mathbf{u}_1 = c_1 (\mathbf{u}_1 \cdot \mathbf{u}_1) + c_2 (\mathbf{u}_2 \cdot \mathbf{u}_1) + \dots + c_p (\mathbf{u}_p \cdot \mathbf{u}_1)
    由于{u1,,up}\{\mathbf{u}_1, \dots, \mathbf{u}_p\}是正交集,当iji \neq juiuj=0\mathbf{u}_i \cdot \mathbf{u}_j = 0,所以上式简化为:
    yu1=c1(u1u1)\mathbf{y} \cdot \mathbf{u}_1 = c_1 (\mathbf{u}_1 \cdot \mathbf{u}_1)
  3. 求解c1c_1
    c1=yu1u1u1c_1 = \frac{\mathbf{y} \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1}
  4. 推广到所有 jjj=2,,pj = 2, \dots, p 进行相同运算,可得:
    cj=yujujuj,j=1,,pc_j = \frac{\mathbf{y} \cdot \mathbf{u}_j}{\mathbf{u}_j \cdot \mathbf{u}_j}, \quad j = 1, \dots, p
现在,我们可以十分方便地利用正交基表示子空间 W ~W~内的任意向量。 (1) ~(1)~式中的向量集合 {u1,u2,u3} ~\{\mathbf{u}_1,\mathbf{u}_2,\mathbf{u}_3\}~组成了 R3 ~\mathbb{R^3}~的一组正交基。我们可以利用定理 5 ~5~来计算向量 y=[618]T ~\mathbf{y} = \begin{bmatrix}6 & 1 & -8\end{bmatrix}^T~在这组正交基下的坐标,即找到系数 c1,c2,c3 ~c_1,c_2,c_3~,使得 y ~\mathbf{y}~能够表示为正交基向量的线性组合:
y=c1u1+c2u2+c3u3\mathbf{y} = c_1 \mathbf{u}_1 + c_2 \mathbf{u}_2 + c_3 \mathbf{u}_3

  • 计算内积。根据定理 5 ~5~,系数 cj ~c_j~由以下公式给出:
    cj=yujujujc_j = \frac{\mathbf{y} \cdot \mathbf{u}_j}{\mathbf{u}_j \cdot \mathbf{u}_j}
    分别计算点积:
    yu1=11,yu2=12,yu3=33u1u1=11,u2u2=6,u3u3=33/2\begin{aligned} \mathbf{y} \cdot \mathbf{u}_1 &= 11, \quad & \mathbf{y} \cdot \mathbf{u}_2 &= -12, \quad & \mathbf{y} \cdot \mathbf{u}_3 &= -33 \\[1ex] \mathbf{u}_1 \cdot \mathbf{u}_1 &= 11, \quad & \mathbf{u}_2 \cdot \mathbf{u}_2 &= 6, \quad & \mathbf{u}_3 \cdot \mathbf{u}_3 &= 33/2 \end{aligned}
  • 计算权重系数
    c1=1111=1,c2=126=2,c3=3333/2=2\begin{aligned} \mathbf{c}_1 &= \frac{11}{11} &= 1, \quad & \mathbf{c}_2 &= \frac{-12}{6} &= -2, \quad & \mathbf{c}_3 &= \frac{-33}{33/2} &= -2 \end{aligned}
  • 组合得到向量
    y=u12u22u3\mathbf{y} = \mathbf{u}_1 -2 \mathbf{u}_2 - 2\mathbf{u}_3

这说明 y ~\mathbf{y}~在正交基 U={u1,u2,u3} ~\mathcal{U} = \{\mathbf{u}_1,\mathbf{u}_2,\mathbf{u}_3\}~下的坐标为:yu=[122]T\mathbf{y}_\mathcal{u} = \begin{bmatrix}1 & -2 & -2\end{bmatrix}^T。下面的三维场景可视化地展示了这一线性组合关系:

3. 正交投影

定理 5 ~5~还可以从几何角度来做出解释,这需要借助正交投影 (orthogonal projection) ~(\textbf{orthogonal projection})~的概念。对 Rn ~\mathbb{R^n}~空间中的任意向量 y ~\mathbf{y}~以及 Rn ~\mathbb{R^n}~中的一个非零向量 u ~\mathbf{u}~,我们尝试对向量 y ~\mathbf{y}~进行分解:一个向量指向 u ~\mathbf{u}~的方向,另一个与 u ~\mathbf{u}~正交的向量:
y=y^+z(1)\mathbf{y} = \hat{\mathbf{y}} + \mathbf{z}\tag{1}

开通会员解锁全部动画

如图所示, y^ ~\hat{\mathbf{y}}~就是 y ~\mathbf{y}~ u ~\mathbf{u}~方向上的正交投影,所以我们可以设 y^=αu ~\hat{\mathbf{y}} = \alpha \mathbf{u}~。接下来我们只要求出这个系数 α ~\alpha~的表达式,就可以很方便的求出 y^ ~\hat{\mathbf{y}}~ 。因为 z=yy^ ~\mathbf{z} = \mathbf{y} - \hat{\mathbf{y}}~ u ~\mathbf{u}~正交,所以它们的点积为 0 ~0~
(yy^)u=0(yαu)u=0α=yuuu\begin{aligned} &(\mathbf{y} - \hat{\mathbf{y}}) \cdot \mathbf{u} &= 0 \\[2ex] \Rightarrow \quad &(\mathbf{y} - \alpha \mathbf{u}) \cdot \mathbf{u} &= 0 \\[2ex] \Rightarrow \quad & \alpha = \frac{\mathbf{y}\cdot \mathbf{u}}{\mathbf{u}\cdot \mathbf{u}} \end{aligned}
现在,我们就得到了计算投影向量 y^ ~\hat{\mathbf{y}}~的表达式:
y^=projLy=yuuuu(2)\hat{\mathbf{y}} = \text{proj}_L\mathbf{y} = \frac{\mathbf{y}\cdot \mathbf{u}}{\mathbf{u}\cdot \mathbf{u}}\mathbf{u}\tag{2}
不难发现,投影向量 y^ ~\hat{\mathbf{y}}~ u ~\mathbf{u}~的长度(范数)没有关系,它只跟 u ~\mathbf{u}~的方向有关。下面是一个根据公式 (2) ~(2)~计算向量 y ~\mathbf{y}~在向量 u ~\mathbf{u}~方向的投影的示例:

开通会员解锁全部动画

观察上图可以发现,在向量 u ~\mathbf{u}~的方向上,y^\hat{\mathbf{y}}点是离向量 y ~\mathbf{y}~最近的点,它们之间的距离为 yy^=(1)2+22=5 ~\|\mathbf{y} - \hat{\mathbf{y}}\| = \sqrt{(-1)^2 + 2^2} = \sqrt{5}~

4. 定理 5 ~5~的几何解释

现在,我们就可以利用正交投影的概念来解释定理 5 ~5~的几何意义了。在定理 5 ~5~中,向量 y ~\mathbf{y}~在正交基下分解出的分量的系数cj=yuujujc_j = \frac{\mathbf{y}\cdot \mathbf{u}}{\mathbf{u}_j\cdot \mathbf{u}_j} y ~\mathbf{y}~投影到 u ~\mathbf{u}~方向的向量 y^ ~\hat{\mathbf{y}}~的表达式系数 α ~\alpha~是相同的。在 R2 ~\mathbb{R^2}~中,根据定理 5 ~5~,向量 y ~\mathbf{y}~可分解为:
y=yu1u1u1u1+yu2u2u2u2\mathbf{y} = \frac{\mathbf{y} \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1} \mathbf{u}_1 + \frac{\mathbf{y} \cdot \mathbf{u}_2}{\mathbf{u}_2 \cdot \mathbf{u}_2} \mathbf{u}_2
从几何角度来解释,向量 y ~\mathbf{y}~可(正交)分解为沿正交向量 u1 ~\mathbf{u}_1~的投影向量 y1^ ~\hat{\mathbf{y}_1}~与沿正交向量 u2 ~\mathbf{u}_2~的投影向量 y1^ ~\hat{\mathbf{y}_1}~之和:y=y1^+y2^\mathbf{y} = \hat{\mathbf{y}_1} + \hat{\mathbf{y}_2}

开通会员解锁全部动画

4. 在物理学中的应用

在物理学和工程力学中,力是一个矢量,可表示为向量 F ~\mathbf{F}~,目标方向用另一个向量 u ~\mathbf{u}~来表示。在许多实际问题中,施加的力 F ~\mathbf{F}~并不完全沿着目标方向 u ~\mathbf{u}~,例如在拖车牵引汽车的过程中,牵引力的方向( F ~\mathbf{F}~的方向)可能与汽车的实际运动方向( u ~\mathbf{u}~的方向)不完全一致。这时,我们可以利用正交投影的概念,将力 F ~\mathbf{F}~分解为两个分量:一个沿着拖车方向的分量 F^ ~\hat{\mathbf{F}}~一个垂直(正交)于拖车方向的分量 FF^ ~\mathbf{F} - \hat{\mathbf{F}}~

开通会员解锁全部动画

假设拖车施加的牵引力 F ~\mathbf{F}~以及拖车方向 u ~\mathbf{u}~如下:
F=[1.00.8] kN,u=[41]\mathbf{F} = \begin{bmatrix} 1.0 \\ 0.8 \end{bmatrix} \text{ kN}, \quad \mathbf{u} = \begin{bmatrix} 4 \\ 1 \end{bmatrix}
计算力在拖车方向上的正交投影:
F^=Fuuuu=[1.1290.282] kN\mathbf{\hat{F}} = \frac{\mathbf{F} \cdot \mathbf{u}}{\mathbf{u} \cdot \mathbf{u}} \mathbf{u} = \begin{bmatrix} 1.129 \\ 0.282 \end{bmatrix} \text{ kN}
投影方向上的力的大小(即 F^ ~\hat{\mathbf{F}}~的模长)为:F^=1.1292+0.28221.164 kN\|\mathbf{\hat{F}}\| = \sqrt{1.129^2 + 0.282^2} \approx 1.164 \text{ kN}。这个力便是拖车施加于小汽车在运动方向上的力。

5. 标准正交集与标准正交基

如果一组向量 {u1,u2,,up} ~\{\mathbf{u}_1,\mathbf{u}_2,\cdots,\mathbf{u}_p\}~既两两正交,又都是单位向量(长度为 1 ~1~),那么这组向量被称标准正交集 (Orthonormal Sets) ~(\textbf{Orthonormal Sets})~。如果该集合的向量数量等于空间 W ~W~的维度,则它构成空间 W ~W~标准正交基 (Orthonormal Basis) ~(\textbf{Orthonormal Basis})~。标准正交基通常被用作最优基,它可以进一步以提升运算效率和精度。

上面三维场景中的三个向量如下:
v1=[3/111/111/11],v2=[1/62/61/6],v3=[1/664/667/66]\mathbf{v}_1 = \begin{bmatrix} 3/\sqrt{11} \\ 1/\sqrt{11} \\ 1/\sqrt{11} \end{bmatrix}, \quad \mathbf{v}_2 = \begin{bmatrix} -1/\sqrt{6} \\ 2/\sqrt{6} \\ 1/\sqrt{6} \end{bmatrix}, \quad \mathbf{v}_3 = \begin{bmatrix} -1/\sqrt{66} \\ -4/\sqrt{66} \\ 7/\sqrt{66} \end{bmatrix}
其中任意两个向量正交,验证其中一组点积 v1v2 ~\mathbf{v}_1\cdot \mathbf{v}_2~
v1v2=(3/111/6)+(1/112/6)+(1/111/6)=0\mathbf{v}_1 \cdot \mathbf{v}_2 = \left( 3/\sqrt{11} \cdot -1/\sqrt{6} \right) + \left( 1/\sqrt{11} \cdot 2/\sqrt{6} \right) + \left( 1/\sqrt{11} \cdot 1/\sqrt{6} \right) = 0
每个向量的长度(范数)也为 1 ~1~,验证 v1 ~\mathbf{v}_1~
v12=(3/11)2+(1/11)2+(1/11)2=1\|\mathbf{v}_1\|^2 = \left( 3/\sqrt{11} \right)^2 + \left( 1/\sqrt{11} \right)^2 + \left( 1/\sqrt{11} \right)^2 = 1
v1,v2,v3 \mathbf{v}_1,\mathbf{v}_2,\mathbf{v}_3~互相正交且长度为 1 ~1~,因此它们是标准正交集。由于它们是线性无关的,并且有 3 ~3~个向量张成 R3 ~\mathbb{R^3}~,因此它们可作为 R3 ~\mathbb{R^3}~的标准正交基。

6. 列正交矩阵及其性质

标准正交集可以作为向量空间的理想基底,简化计算并优化投影操作。在实际计算中,我们通常将这些基向量组织成矩阵形式,由标准正交集的向量作为列向量构成的矩阵,被称为列正交矩阵(或具有标准正交列向量的矩阵)。它有一个关键的性质,可由以下定理给出:

为了简化记号,我们假设 U ~\mathbf{U}~只有三列,每列都是 Rm ~\mathbb{R^m}~中的向量,即:
U=[u1u2u3]\mathbf{U} = \begin{bmatrix} \mathbf{u}_1 & \mathbf{u}_2 & \mathbf{u}_3 \end{bmatrix}
计算UTU\mathbf{U}^T \mathbf{U}
UTU=[u1Tu1u1Tu2u1Tu3u2Tu1u2Tu2u2Tu3u3Tu1u3Tu2u3Tu3]\mathbf{U}^T \mathbf{U} = \begin{bmatrix} \mathbf{u}_1^T \mathbf{u}_1 & \mathbf{u}_1^T \mathbf{u}_2 & \mathbf{u}_1^T \mathbf{u}_3 \\ \mathbf{u}_2^T \mathbf{u}_1 & \mathbf{u}_2^T \mathbf{u}_2 & \mathbf{u}_2^T \mathbf{u}_3 \\ \mathbf{u}_3^T \mathbf{u}_1 & \mathbf{u}_3^T \mathbf{u}_2 & \mathbf{u}_3^T \mathbf{u}_3 \end{bmatrix}
由于 U ~\mathbf{U}~的列向量是标准正交的,因此:
  1.  ij ~i \neq j~,则 uiTuj=0 ~u_i^T u_j = 0~(正交性)。

  2.  i=j ~i = j~,则 uiTui=1 ~u_i^T u_i = 1~(单位长度)。

因此,矩阵 UTU ~U^T U~具有单位矩阵的形式,证明成立。

利用定理 6 ~6~的结论,我们能够简化正交性验证、优化线性方程求解、提高数值计算的稳定性,因此它广泛应用于最小二乘法、数据降维、计算机图形学和机器学习等场景。进一步地,下面的定理 7 ~7~详细揭示了列正交矩阵在变换过程中如何保持向量的几何特性,包括长度、内积和正交性,这些性质在各种变换和数据处理过程中至关重要。

下面通过一个例题来直观展示定理 7 ~7~的应用。给定一个列正交矩阵 U ~\mathbf{U}~和一个向量 x ~\mathbf{x}~
U=[1/22/31/22/301/3],x=[23]\mathbf{U} = \begin{bmatrix} 1/\sqrt{2} & 2/3 \\ 1/\sqrt{2} & -2/3 \\ 0 & 1/3 \end{bmatrix}, \quad \mathbf{x} = \begin{bmatrix} \sqrt{2} \\ 3 \end{bmatrix}
验证矩阵变换 xUx ~\mathbf{x} \mapsto \mathbf{U} \mathbf{x}~不会改变向量 x ~\mathbf{x}~的长度。

Ux=[1/22/31/22/301/3][23]=[311]\mathbf{U} \mathbf{x} = \begin{bmatrix} 1/\sqrt{2} & 2/3 \\ 1/\sqrt{2} & -2/3 \\ 0 & 1/3 \end{bmatrix} \begin{bmatrix} \sqrt{2} \\ 3 \end{bmatrix} = \begin{bmatrix} 3 \\ -1 \\ 1 \end{bmatrix}

Ux=32+(1)2+12=9+1+1=11x=(2)2+32=2+9=11\begin{aligned} \|\mathbf{U} \mathbf{x}\| &= \sqrt{3^2 + (-1)^2 + 1^2} = \sqrt{9 + 1 + 1} = \sqrt{11} \\[2ex] \|\mathbf{x}\| &= \sqrt{(\sqrt{2})^2 + 3^2} = \sqrt{2 + 9} = \sqrt{11} \end{aligned}
如果列正交矩阵是一个方阵 (n×n) ~(n\times n)~,那么它就是一个正交矩阵 (Orthogonal Matrix) ~(\textbf{Orthogonal Matrix})~。它不仅满足所有列正交矩阵的性质,还具有两个独特的性质:行、列向量都是正交、归一的其逆矩阵等于其转置矩阵,即: Q1=QT ~\mathbf{Q}^{-1} = \mathbf{Q}^T~。例如,我们常用的旋转矩阵就是一个典型的正交矩阵:
Q=[cosθsinθsinθcosθ]\mathbf{Q} = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}
从几何角度来看,正交矩阵描述的是保持物体形状和尺寸不变的几何变换,通常对应于旋转或反射(镜像变换),它们属于刚体变换的一部分。