Logo

内积、长度和正交性

1. 内积的定义与性质

提出内积 (Inner Product) ~(\textbf{Inner Product})~这个概念,主要是为了在向量空间中推广欧几里得几何的概念。它包括:定义向量的长度(范数)、定义向量间的角度与正交性、计算投影。这些基础概念是继续研究正交矩阵、最小二乘法、特征值分解 (Eigen Decomposition) ~(\textbf{Eigen Decomposition})~、奇异值分解 (SVD) ~(\textbf{SVD})~等核心内容的基础。

1.1 内积的定义

在欧几里得空间 Rn ~\mathbb{R^n}~中,内积是两个向量之间的一种运算,它将两个向量映射为一个标量 (scalar) ~(\textbf{scalar})~,用来度量它们之间的相似性或投影关系。对于两个 n ~n~维向量:
u=[u1u2un],v=[v1v2vn]\mathbf{u} = \begin{bmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{bmatrix}, \quad \mathbf{v} = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix}
它们的内积(或称点积dot product) \textbf{dot product})~定义为:
uv=u1v1+u2v2++unvn\mathbf{u} \cdot \mathbf{v} = u_1 v_1 + u_2 v_2 + \cdots + u_n v_n
也可写作矩阵乘法的形式:
uTv=[u1u2un][v1v2vn]\mathbf{u}^T \mathbf{v} = \begin{bmatrix} u_1 & u_2 & \dots & u_n \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix}
内积的结果是一个标量( 1×1 ~1\times 1~矩阵)。向量的内积结果具有明确的几何意义:

开通会员解锁全部动画

当两个向量的内积为正时,它们的方向相近,夹角小于 90 ~90^\circ~;当内积为零时,两个向量正交(垂直),夹角为 90 ~90^\circ~;当内积为负时,它们的方向相反,夹角大于 90 ~90^\circ~

1.2 内积的性质

 u,v,w ~\mathbf{u},\mathbf{v},\mathbf{w}~ Rn ~\mathbb{R^n}~中的向量, c ~c~是标量,内积具有以下性质:

uv=vu\mathbf{u}\cdot \mathbf{v} = \mathbf{v}\cdot \mathbf{u}
内积是数值相乘后求和的过程,乘法本身满足交换律,因此交换顺序不会影响结果。请看下面示例:
[123][456]=1×4+2×5+3×6=32\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} \cdot \begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix} = 1 \times 4 + 2 \times 5 + 3 \times 6 = 32
交换顺序:
[456][123]=4×1+5×2+6×3=32\begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} = 4 \times 1 + 5 \times 2 + 6 \times 3 = 32
结果相同。

(u+v)w=uw+vw(\mathbf{u}+\mathbf{v})\cdot \mathbf{w} = \mathbf{u}\cdot \mathbf{w} + \mathbf{v}\cdot \mathbf{w}
如果我们把向量加法看作向量的坐标逐项相加,例如:
[12]+[34]=[46]\begin{bmatrix} 1 \\ 2 \end{bmatrix} + \begin{bmatrix} 3 \\ 4 \end{bmatrix} = \begin{bmatrix} 4 \\ 6 \end{bmatrix}
那么内积的计算可以拆分成分配计算,对内积计算:
[46][57]=4×5+6×7=62\begin{bmatrix} 4 \\ 6 \end{bmatrix} \cdot \begin{bmatrix} 5 \\ 7 \end{bmatrix} = 4 \times 5 + 6 \times 7 = 62
等价于:
([12][57])+([34][57])=(1×5+2×7)+(3×5+4×7)=19+43=62\begin{aligned} \left( \begin{bmatrix} 1 \\ 2 \end{bmatrix} \cdot \begin{bmatrix} 5 \\ 7 \end{bmatrix} \right) + \left( \begin{bmatrix} 3 \\ 4 \end{bmatrix} \cdot \begin{bmatrix} 5 \\ 7 \end{bmatrix} \right) &= (1 \times 5 + 2 \times 7) + (3 \times 5 + 4 \times 7) \\[2ex] &= 19 + 43 \\[2ex] &= 62 \end{aligned}

(cu)v=c(uv)u(cv)=c(uv)\begin{aligned} (c\mathbf{u}) \cdot \mathbf{v} &= c (\mathbf{u} \cdot \mathbf{v}) \\[1ex] \mathbf{u} \cdot (c\mathbf{v}) &= c (\mathbf{u} \cdot \mathbf{v}) \end{aligned}
数乘会单独作用于每个分量,因此可以提到整体外部。请看示例: 设标量 c=2c = 2,向量 u\mathbf{u} v\mathbf{v} 分别为:
u=[12],v=[35]\mathbf{u} = \begin{bmatrix} 1 \\ 2 \end{bmatrix}, \quad \mathbf{v} = \begin{bmatrix} 3 \\ 5 \end{bmatrix}
首先,先对 u\mathbf{u} 进行数乘:
cu=2×[12]=[24]c\mathbf{u} = 2 \times \begin{bmatrix} 1 \\ 2 \end{bmatrix} = \begin{bmatrix} 2 \\ 4 \end{bmatrix}
然后计算内积:
[24][35]=2×3+4×5=26\begin{bmatrix} 2 \\ 4 \end{bmatrix} \cdot \begin{bmatrix} 3 \\ 5 \end{bmatrix} = 2 \times 3 + 4 \times 5 = 26
另一种计算方式: 先计算 u\mathbf{u}v\mathbf{v}的内积:
uv=[12][35]=1×3+2×5=13\mathbf{u} \cdot \mathbf{v} = \begin{bmatrix} 1 \\ 2 \end{bmatrix} \cdot \begin{bmatrix} 3 \\ 5 \end{bmatrix} = 1 \times 3 + 2 \times 5 = 13
再乘以标量 cc
c×13=2×13=26c \times 13 = 2 \times 13 = 26

由于平方和始终非负,所以内积不可能小于 0 ~0~,只有当所有分量都为 0 ~0~时,内积才为 0 ~0~。请看下面两个例子:
[34][34]=32+(4)2=25\begin{bmatrix} 3 \\ -4 \end{bmatrix} \cdot \begin{bmatrix} 3 \\ -4 \end{bmatrix} = 3^2 + (-4)^2 = 25
当且仅当
[00][00]=0\begin{bmatrix} 0 \\ 0 \end{bmatrix} \cdot \begin{bmatrix} 0 \\ 0 \end{bmatrix} = 0
这说明只有零向量才会让内积为 0。

2. 向量的长度(范数)

向量的长度用于度量向量的大小,帮助定义距离、方向、归一化及相似性,是计算几何、数据分析和机器学习等领域的重要工具。

2.1 向量的长度(范数)的定义

在欧几里得空间Rn\mathbb{R}^n中,向量的长度(或称范数Norm\textbf{Norm})是衡量向量大小的重要概念,表示从原点到该向量终点的欧几里得距离。 对于一个 n ~n~维向量:
v=[v1v2vn]\mathbf{v} = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix}
它的长度(或称二范数2norm\ell_2-\text{norm})定义为:
v=v12+v22++vn2\|\mathbf{v}\| = \sqrt{v_1^2 + v_2^2 + \cdots + v_n^2}
换一种表达方式:
v=vv\|\mathbf{v}\| = \sqrt{\mathbf{v} \cdot \mathbf{v}}
其中,vv\mathbf{v} \cdot \mathbf{v}表示向量自身的内积(点积)。

2.2 向量长度的几何意义

开通会员解锁全部动画

在二维空间 R2 ~\mathbb{R^2}~中,向量长度等同于直角三角形中的斜边长度,符合勾股定理:
v=x2+y2\|\mathbf{v}\| = \sqrt{x^2 + y^2}
其中 x,y ~x,y~为向量的横纵坐标。在三维空间 R3 ~\mathbb{R^3}~中,向量的长度为:
v=x2+y2+z2\|\mathbf{v}\| = \sqrt{x^2 + y^2 + z^2}
在更高维的空间,仍然保持相同形式,它度量了向量到原点的直线距离。

2.3 归一化(单位向量)

开通会员解锁全部动画

若一个向量的长度为 1 ~1~,则称其为单位向量 (Unit Vectoer) ~(\textbf{Unit Vectoer})~给定任意非零向量 v ~\mathbf{v}~,我们可以通过归一化 (Normalization) ~(\textbf{Normalization})~得到与其方向相同的单位向量:
u=vv\mathbf{u} = \frac{\mathbf{v}}{\|\mathbf{v}\|}
即用向量自身除以它的长度,使其长度变为 1 ~1~。若向量
v=[34]\mathbf{v} = \begin{bmatrix}3 \\ 4 \end{bmatrix}
其单位向量计算如下:
u=15[34]=[3/54/5]\mathbf{u} = \frac{1}{5} \begin{bmatrix} 3 \\ 4 \end{bmatrix} = \begin{bmatrix} 3/5 \\ 4/5 \end{bmatrix}
验证其长度:
u=(35)2+(45)2=925+1625=2525=1\|\mathbf{u}\| = \sqrt{\left(\frac{3}{5}\right)^2 + \left(\frac{4}{5}\right)^2} = \sqrt{\frac{9}{25} + \frac{16}{25}} = \sqrt{\frac{25}{25}} = 1

2.4 向量长度的性质

 u,v ~\mathbf{u},\mathbf{v}~ Rn ~\mathbb{R^n}~中的向量, c ~c~是标量,向量的范数满足以下性质:

v0\|\mathbf{v}\| \geq 0
只有当 v=0\mathbf{v} = 0时,v=0\|\mathbf{v}\| = 0

cv=cv\|c\mathbf{v}\| = |c| \|\mathbf{v}\|
说明乘以标量只会影响向量的长度,而不会改变其方向。

u+vu+v\|\mathbf{u} + \mathbf{v}\| \leq \|\mathbf{u}\| + \|\mathbf{v}\|
说明两个向量相加的长度不超过各自长度之和。

u+v2+uv2=2(u2+v2)\|\mathbf{u} + \mathbf{v}\|^2 + \|\mathbf{u} - \mathbf{v}\|^2 = 2 (\|\mathbf{u}\|^2 + \|\mathbf{v}\|^2)
该公式广泛用于内积空间的研究。

3. 向量间的距离

向量间的距离衡量它们在空间中的接近程度,即直线距离,从而反映相似性或差异性。它广泛应用于机器学习、信号处理、计算机视觉、推荐系统等领域,助力数据分析、分类、聚类等任务。

3.1 向量间的距离的定义

欧几里得空间 Rn ~\mathbb{R^n}~中,向量之间的距离衡量的是两个向量在空间中的“接近程度”。对于两个向量u,v\mathbf{u}, \mathbf{v},它们之间的欧几里得距离 (Euclidean Distance) ~(\textbf{Euclidean Distance})~定义为:
dist(u,v)=uv\text{dist}(\mathbf{u}, \mathbf{v}) = \|\mathbf{u} - \mathbf{v}\|
即两个向量的差向量 (Euclidean Distance) ~(\textbf{Euclidean Distance})~的长度(范数)。展开计算:
dist(u,v)=(u1v1)2+(u2v2)2++(unvn)2\text{dist}(\mathbf{u}, \mathbf{v}) = \sqrt{(u_1 - v_1)^2 + (u_2 - v_2)^2 + \cdots + (u_n - v_n)^2}
换句话说,向量间的距离即对应元素之差的平方和的平方根

3.2 向量距离的几何意义

开通会员解锁全部动画

二维空间 R2 ~\mathbb{R^2}~,距离公式等同于两点间的直线距离,即:
dist(u,v)=(x2x1)2+(y2y1)2\text{dist}(\mathbf{u}, \mathbf{v}) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
三维空间 R3 ~\mathbb{R^3}~,距离扩展为:
dist(u,v)=(x2x1)2+(y2y1)2+(z2z1)2\text{dist}(\mathbf{u}, \mathbf{v}) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2 + (z_2 - z_1)^2}
该公式描述的是两点间的欧几里得直线距离。在高维空间 Rn ~\mathbb{R^n}~,向量间的距离依然保持相同的计算方式,它表示的是从 u ~\mathbf{u}~ v ~\mathbf{v}~的最短路径,即直线距离。

3.3 向量距离的性质

 u,v,w ~\mathbf{u},\mathbf{v},\mathbf{w}~ Rn ~\mathbb{R^n}~中的向量,向量间的欧几里得距离具有以下重要性质:

dist(u,v)0\text{dist}(\mathbf{u}, \mathbf{v}) \geq 0
说明距离不会为负。只有当 u=v ~\mathbf{u} = \mathbf{v}~时,距离才为 0 ~0~,即:
dist(u,v)=0    u=v\text{dist}(\mathbf{u}, \mathbf{v}) = 0 \iff \mathbf{u} = \mathbf{v}

dist(u,v)=dist(v,u)\text{dist}(\mathbf{u}, \mathbf{v}) = \text{dist}(\mathbf{v}, \mathbf{u})
说明向量 u ~\mathbf{u}~ v ~\mathbf{v}~的距离与 v ~\mathbf{v}~ u ~\mathbf{u}~的距离是相等的。

dist(u,w)dist(u,v)+dist(v,w)\text{dist}(\mathbf{u}, \mathbf{w}) \leq \text{dist}(\mathbf{u}, \mathbf{v}) + \text{dist}(\mathbf{v}, \mathbf{w})
说明从 u ~\mathbf{u}~ w ~\mathbf{w}~的直线距离不会超过先到 v ~\mathbf{v}~再到 w ~\mathbf{w}~的距离之和。等式成立的前提是 u,v,w ~\mathbf{u},\mathbf{v},\mathbf{w}~三个向量共线。

4. 正交向量的定义

正交向量表示相互独立、不相关的方向,在线性代数、数据分析、信号处理、最小二乘法等领域用于构建正交基、计算投影和优化计算。

4.1 正交向量的定义

欧几里得空间 Rn ~\mathbb{R}^n~ 中,两个向量 u ~\mathbf{u}~ v ~\mathbf{v}~被称为正交(orthogonal)(\textbf{orthogonal}),当且仅当它们的内积为 0 ~0~,即:
uv=0\mathbf{u} \cdot \mathbf{v} = 0
或者用矩阵形式表示:
uTv=0\mathbf{u}^T \mathbf{v} = 0
内积等于 0 ~0~意味着两个向量之间的夹角 θ ~\theta~ 90 ~90^\circ~,即:
cosθ=uvuv=0\cos\theta = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \|\mathbf{v}\|} = 0

4.2 正交向量的几何意义

开通会员解锁全部动画

在二维空间 R2 ~\mathbb{R^2}~中,向量 u=[10]T ~\mathbf{u} = \begin{bmatrix}1 & 0\end{bmatrix}^T~ v=[01]T ~\mathbf{v} = \begin{bmatrix}0 & 1\end{bmatrix}^T~是正交的,因为:
uv=1×0+0×1=0\mathbf{u} \cdot \mathbf{v} = 1 \times 0 + 0 \times 1 = 0
向量 u,v ~\mathbf{u},\mathbf{v}~对应于直角坐标系中的标准基向量,它们互相垂直。
在三维空间 R3 ~\mathbb{R^3}~中,向量 u=[121]T ~\mathbf{u}=\begin{bmatrix}1 & 2 & -1\end{bmatrix}^T~ u=[210]T ~\mathbf{u}=\begin{bmatrix}2 & -1 & 0\end{bmatrix}^T~是正交的,因为:
uv=1×2+2×(1)+(1)×0=22+0=0\mathbf{u} \cdot \mathbf{v} = 1 \times 2 + 2 \times (-1) + (-1) \times 0 = 2 - 2 + 0 = 0

在高维空间中,正交向量的概念依然适用。例如,高维数据分析中通常会使用正交向量来构建正交基 (orthonormal basis) ~(\textbf{orthonormal basis})~,以便简化计算和数据变换。

4.3 正交向量的性质

由于0v=00\cdot \mathbf{v} = 0对任意向量 v ~\mathbf{v}~都成立,因此零向量与所有向量正交。

 u ~\mathbf{u}~ v ~\mathbf{v}~正交,且它们的范数均为 1 ~1~(即单位向量),则称它们构成标准正交基

此外,正交向量还具有一个重要性质,它是勾股定理在向量空间中的推广。勾股定理描述了直角三角形的斜边平方等于两直角边平方之和,而在向量空间中,这一定理可以推广如下:

5. 正交补空间

正交补空间由与给定子空间正交的所有向量组成,在最小二乘法数据降维(PCA)(\textbf{PCA})等领域用于分析向量的独立性和空间分解。

5.1 正交补空间的定义

在向量空间 Rn\mathbb{R}^n 中,给定一个子空间 W ~W~,其正交补(Orthogonal Complement)(\textbf{Orthogonal Complement})记作WW^\perp,定义如下:
W={vRnv 与 W 中的所有向量正交}W^\perp = \{\mathbf{v} \in \mathbb{R}^n \mid \mathbf{v} \text{ 与 } W \text{ 中的所有向量正交} \}
即,正交补WW^\perp 是所有与 W ~W~中向量正交的向量组成的集合。

5.2 正交补空间的几何意义

在几何上,正交补WW^\perp代表的是所有垂直于 W ~W~的方向,在 R2 ~\mathbb{R^2}~中,如果 W ~W~是一条直线(通过原点),那么WW^\perp是与该直线垂直的另一条直线。在 R3 ~\mathbb{R^3}~中,如果 W ~W~是一个平面(过原点),那么WW^\perp是垂直于该平面的直线;如果 W ~W~是一条直线(过原点),那么WW^\perp是垂直于该直线的平面。

5.3 如何求正交补空间

要求一个子空间 W ~W~的正交补WW^\perp,通常按照以下步骤:

 W ~W~ k ~k~个线性无关的向量 w1,w2,,wk ~\mathbf{w}_1,\mathbf{w}_2,\cdots,\mathbf{w}_k~张成。

找出所有与 W ~W~中所有基向量正交的向量 v=[x1,x2,,xn]T ~\mathbf{v} = \begin{bmatrix}x_1,x_2,\cdots,x_n\end{bmatrix}^T~,即解方程组:
w1v=0,w2v=0,,wkv=0\mathbf{w}_1 \cdot \mathbf{v} = 0, \quad \mathbf{w}_2 \cdot \mathbf{v} = 0, \quad \ldots, \quad \mathbf{w}_k \cdot \mathbf{v} = 0
这是一组齐次线性方程。

方程组的解空间即WW^\perp

5.4 正交补空间的性质

这个性质直接定义了正交补空间,即 W~W^\perp由所有与 W ~W~内向量正交的向量组成

这个性质确保了 W~W^\perp仍然是一个向量空间,所以它也满足:
  1. 零空间 0 ~\mathbf{0}~必定属于 W~W^\perp

  2. 封闭性:若v,wW\mathbf{v},\mathbf{w} \in W^\perp,则它们的线性组合 c1v+c2w~c_1\mathbf{v} + c_2\mathbf{w}仍然在 W~W^\perp内。

  3. 加法封闭性 W~W^\perp中两个向量相加仍在 W~W^\perp内。

正交补揭示了矩阵空间的结构,特别是行空间、列空间与零空间的正交补关系,它在分析矩阵的解空间、线性系统的自由度以及最小二乘逼近等问题中具有重要作用。下面的定理描述了这些关系:

下面是定理 3 ~3~的证明过程:

  • xNul A\mathbf{x} \in \text{Nul } \mathbf{A}Ax=0\mathbf{A}\mathbf{x} = 0
    • 设矩阵 A ~\mathbf{A}~由行向量组成:
      A=[r1r2rm]\mathbf{A} = \begin{bmatrix} \mathbf{r}_1 \\ \mathbf{r}_2 \\ \vdots \\ \mathbf{r}_m \end{bmatrix}
      其中 ri\mathbf{r}_i A ~\mathbf{A}~的第 i ~i~行向量。
    • 计算矩阵乘法:
      Ax=[r1r2rm]x=[r1xr2xrmx]=[000]\mathbf{A}\mathbf{x} = \begin{bmatrix} \mathbf{r}_1 \\ \mathbf{r}_2 \\ \vdots \\ \mathbf{r}_m \end{bmatrix} \mathbf{x} = \begin{bmatrix} \mathbf{r}_1 \cdot \mathbf{x} \\ \mathbf{r}_2 \cdot \mathbf{x} \\ \vdots \\ \mathbf{r}_m \cdot \mathbf{x} \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix}
      这说明 x ~\mathbf{x}~与所有行向量正交,因此 x(Row A)~\mathbf{x} \in (\text{Row } \mathbf{A})^\perp
  • 反向证明:若xRowAT\mathbf{x} \in \text{Row} \mathbf{A}^TxNulA\mathbf{x} \in \text{Nul} \mathbf{A}
    •  x ~\mathbf{x}~ A ~\mathbf{A}~的所有行向量正交,则
      rix=0,i=1,2,,m\mathbf{r}_i \cdot \mathbf{x} = 0, \quad \forall i = 1,2,\dots,m
      这意味着:
      Ax=0\mathbf{A}\mathbf{x} = 0
       x ~\mathbf{x}~属于零空间 Nul A\text{Nul } A。因此,(Row A)=Nul A(\text{Row } A)^\perp = \text{Nul } A

  • 由于 Row AT=Col A~\text{Row } \mathbf{A}^T = \text{Col } \mathbf{A},将AT\mathbf{A}^T代入上面的结论:
    (Row AT)=Nul AT(\text{Row } \mathbf{A}^T)^\perp = \text{Nul } \mathbf{A}^T
    再由 Row AT=Col A~\text{Row } \mathbf{A}^T = \text{Col } \mathbf{A},可得:
    (Col A)=Nul AT(\text{Col } \mathbf{A})^\perp = \text{Nul } \mathbf{A}^T

6. 向量之间的角度与余弦公式

在欧几里得空间 Rn ~\mathbb{R^n}~中,两个向量 u ~\mathbf{u}~ v ~\mathbf{v}~之间的夹角 θ ~\theta~是度量它们方向关系的重要概念。角度可以通过内积来计算,定义如下:
cosθ=uvuv\cos\theta = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \|\mathbf{v}\|}
这一公式可以通过余弦定理推导得出。设 u ~\mathbf{u}~ v ~\mathbf{v}~是从原点出发的两个向量,它们的端点与 uv ~\mathbf{u} - \mathbf{v}~形成一个三角形。根据余弦定理,有:
uv2=u2+v22uvcosθ|\mathbf{u} - \mathbf{v}|^2 = |\mathbf{u}|^2 + |\mathbf{v}|^2 - 2|\mathbf{u}||\mathbf{v}|\cos\theta
另一方面,考虑向量模长的平方展开:
uv2=(uv)(uv)|\mathbf{u} - \mathbf{v}|^2 = (\mathbf{u} - \mathbf{v}) \cdot (\mathbf{u} - \mathbf{v})
展开后得到:
uv2=uu+vv2uv|\mathbf{u} - \mathbf{v}|^2 = \mathbf{u} \cdot \mathbf{u} + \mathbf{v} \cdot \mathbf{v} - 2\mathbf{u} \cdot \mathbf{v}
将此等式与余弦定理的表达式对比,得:
2uv=2uvcosθ-2\mathbf{u} \cdot \mathbf{v} = -2|\mathbf{u}||\mathbf{v}|\cos\theta
整理后:
cosθ=uvuv\cos\theta = \frac{\mathbf{u} \cdot \mathbf{v}}{|\mathbf{u}||\mathbf{v}|}

开通会员解锁全部动画