Logo

二次型

1. 二次型的定义

 Rn ~\mathbb{R^n}~ n ~n~维实向量空间,二次型是定义在 Rn ~\mathbb{R^n}~上的函数 Q(x) ~Q(x)~,其形式为:
Q(x)=xTAx=i=1nj=1naijxixjQ(x) = \mathbf{x}^T \mathbf{A} \mathbf{x} = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j
其中,x=[x1x2xn]T\mathbf{x} = \begin{bmatrix}x_1 & x_2 & \cdots & x_n\end{bmatrix}^T是列向量,A\mathbf{A} n×n ~n\times n~实对称矩阵,称为关于二次型的矩阵(matrix of the(\textbf{matrix of the} quadratic form)\textbf{ quadratic form})。例如,对于二维变量x=[x1x2]T\mathbf{x} = \begin{bmatrix}x_1 & x_2\end{bmatrix}^T,二次型的矩阵形式为:
Q(x)=[x1x2][a11a12a21a22][x1x2]Q(x) = \begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}
展开后得到二次函数:
Q(x)=a11x12+(a12+a21)x1x2+a22x22Q(x) = a_{11}x_1^2 + (a_{12} + a_{21})x_1x_2 + a_{22}x_2^2
由于 A ~\mathbf{A}~对称(a12=a21)(a_{12} = a_{21}),最终形式为:
Q(x)=a11x12+2a12x1x2+a22x22Q(x) = a_{11}x_1^2 + 2a_{12}x_1x_2 + a_{22}x_2^2
下面两个示例分别演示了对角矩阵和对称矩阵的二次型计算,通过矩阵乘法将二次型 Q(x)=xTAx ~Q(x)= \mathbf{x}^T\mathbf{A}\mathbf{x}~展开为具体的多项式形式的过程:

开通会员解锁全部动画

通过对比可以发现,对角矩阵的二次型仅包含平方项,而非对角矩阵的二次型则包含交叉项,其系数由矩阵的非对角元素决定。下面的示例展示了如何将一个给定的二次多项式表示为矩阵形式 xTAx ~\mathbf{x}^T\mathbf{A}\mathbf{x}~

开通会员解锁全部动画

通过将平方项的系数置于矩阵的对角线,并将交叉项的系数平分到对称位置,可以构造出对称矩阵 A ~\mathbf{A}~,从而将二次型转化为矩阵形式。

2. 二次型中的变量替换

在实际应用中,为了进一步简化复杂的二次关系,通常的做法是对二次型进行标准化处理,通过变量替换将其转化为仅含平方项的标准形式。我们接下来讨论如何通过正交对角化和变量替换实现这一过程。

2.1 交叉项的问题与标准形式

二次型中的交叉项会增加计算复杂度,并使得几何性质(如椭圆、双曲线的形状和方向)难以直观理解。为了简化分析和计算,可以通过变量替换消除交叉项,将其转化为标准形式:
Q(x)=λ1y12+λ2y22++λnyn2=[y1y2yn][λ1000λ2000λn][y1y2yn]=yTDy\begin{align*}Q(x) &= \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2\\[3ex] &= \begin{bmatrix} y_1 & y_2 & \cdots & y_n \end{bmatrix} \begin{bmatrix}\lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}\\[3ex] &= \mathbf{y}^T \mathbf{D} \mathbf{y} \end{align*}
其中,D \mathbf{D}~为对角矩阵,对角元素 λ1,λ2,,λn ~\lambda_1,\lambda_2,\cdots,\lambda_n~为二次型矩阵 A ~\mathbf{A}~的特征值, y ~\mathbf{y}~为新的变量。

2.2 变量替换的核心思想

变量替换的核心思想是通过一个可逆矩阵 P ~\mathbf{P}~将原始变量 x ~\mathbf{x}~替换为新变量 y ~\mathbf{y}~,即:
x=Py\mathbf{x} = \mathbf{P}\mathbf{y}
通过这种替换,二次型 Q(x)=xTAx ~Q(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x}~可以转化为:
Q(x)=(Py)TA(Py)=yT(PTAP)y(1)Q(\mathbf{x}) = (\mathbf{P}\mathbf{y})^T \mathbf{A} (\mathbf{P}\mathbf{y}) = \mathbf{y}^T (\textcolor{#2196f3}{\mathbf{P}^T \mathbf{A} \mathbf{P}}) \mathbf{y}\tag{1}
新的二次型矩阵变为 D=PTAP~\mathbf{D} = \mathbf{P}^T \mathbf{A} \mathbf{P}。可见,变量替换的过程本质上就是对矩阵 A ~\mathbf{A}~正交对角化的过程。

2.3 变量替换的示例

给定二次型:
Q(x)=x128x1x25x22Q(x) = x_1^2 - 8x_1x_2 - 5x_2^2
通过变量替换将其转化为标准形式,消除交叉项。

  • 将二次型 Q(x)=x28x1x25x22 ~Q(x) = x^2 - 8x_1x_2 - 5x_2^2~表示为矩阵形式 Q(x)=xTAx ~Q(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x}~,其中 A ~\mathbf{A}~是对称矩阵。根据二次型的系数,矩阵 A ~\mathbf{A}~为:
    A=[1445]\mathbf{A} = \begin{bmatrix}1 & -4 \\ -4 & -5\end{bmatrix}

  • 计算特征值:求解特征方程 det(AλI)=0 ~\det(\mathbf{A} - \lambda\mathbf{I}) = 0~
    det[1λ445λ]=(1λ)(5λ)(4)2=λ2+4λ21=0\det \begin{bmatrix} 1 - \lambda & -4 \\ -4 & -5 - \lambda \end{bmatrix} = (1 - \lambda)(-5 - \lambda) - (-4)^2 = \lambda^2 + 4\lambda - 21 = 0
    解得特征值:
    λ1=3,λ2=7\lambda_1 = 3,\quad \lambda_2 = 7
  • 计算特征向量
    • 对于 λ1=3 ~\lambda_1=3~,解方程 (A3I)v=0 ~(\mathbf{A} - 3\mathbf{I})\mathbf{v}=0~
      [2448][v1v2]=[00]\begin{bmatrix}-2 & -4 \\ -4 & -8\end{bmatrix}\begin{bmatrix}v_1 \\ v_2\end{bmatrix} = \begin{bmatrix}0 \\ 0\end{bmatrix}
      解得特征向量 v=[21]T ~\mathbf{v}=\begin{bmatrix}2 & -1\end{bmatrix}^T~,归一化后得 [2/51/(5)]T ~\begin{bmatrix}2/\sqrt{5} & -1/\sqrt(5)\end{bmatrix}^T~
    • 对于 λ2=7 ~\lambda_2=7~,解方程 (A7I)v=0 ~(\mathbf{A} - 7\mathbf{I})\mathbf{v}=0~
      [8442][v1v2]=[00]\begin{bmatrix}8 & -4 \\ -4 & 2\end{bmatrix}\begin{bmatrix}v_1 \\ v_2\end{bmatrix} = \begin{bmatrix}0 \\ 0\end{bmatrix}
      解得特征向量 v=[12]T ~\mathbf{v}=\begin{bmatrix}1 & 2\end{bmatrix}^T~,归一化后得 [1/52/(5)]T ~\begin{bmatrix}1/\sqrt{5} & 2/\sqrt(5)\end{bmatrix}^T~
  • 构造正交矩阵 P ~\mathbf{P}~和对角矩阵 D ~\mathbf{D}~:将单位特征向量按列排列,得到正交矩阵 P ~\mathbf{P}~;对角矩阵 D ~\mathbf{D}~对角元素为特征值:
    P=[2/51/51/52/5],D=[3007]\mathbf{P} = \begin{bmatrix}2/\sqrt{5} & 1/\sqrt{5} \\ -1/\sqrt{5} & 2/\sqrt{5}\end{bmatrix}, \quad \mathbf{D} = \begin{bmatrix}3 & 0 \\ 0 & -7\end{bmatrix}

  • 通过变量替换 x=Py ~\mathbf{x} = \mathbf{P}\mathbf{y}~,将二次型转化为标准形式:
    Q(x)=yTDy=3y127y22Q(x) = y^T Dy = 3y_1^2 - 7y_2^2

 x=[22]T ~\mathbf{x} = \begin{bmatrix}2 & -2 \end{bmatrix}^T~,验证标准形式的值是否与原二次型一致。

  1. 计算 y=PTx ~\mathbf{y} = \mathbf{P}^T\mathbf{x}~
    y=[2/51/51/52/5][22]=[6/52/5]y = \begin{bmatrix} 2/\sqrt{5} & -1/\sqrt{5} \\ 1/\sqrt{5} & 2/\sqrt{5} \end{bmatrix} \begin{bmatrix} 2 \\ -2 \end{bmatrix} = \begin{bmatrix} 6/\sqrt{5} \\ -2/\sqrt{5} \end{bmatrix}
  2. 计算标准形式的值:
    3y127y22=3(65)27(25)23y_1^2 - 7y_2^2 = 3 \left( \frac{6}{\sqrt{5}} \right)^2 - 7 \left( \frac{-2}{\sqrt{5}} \right)^2
  3. 计算原二次型的值:
    Q(x)=(2)28(2)(2)5(2)2=4+3220=16Q(x) = (2)^2 - 8(2)(-2) - 5(-2)^2 = 4 + 32 - 20 = 16

结论:验证结果一致。

验证标准形式的值和原二次型结果等价可由下图说明:

开通会员解锁全部动画

3. 主轴定理及其几何意义

根据 (1) ~(1)~式,我们可以把变量变换过程可以推广到任意的对称矩阵,这一结论由下面的主轴定理给出。“主轴(Principal Axes)(\textbf{Principal Axes})的概念让我们可以将二次型的几何图形(如椭圆、双曲线)对齐到标准位置,从而更好地理解二次型的性质。

3.1 主轴定理

在主轴定理中,正交矩阵 P ~\mathbf{P}~的列向量被称为二次型 xTAx ~\mathbf{x}^T\mathbf{A}\mathbf{x}~的主轴,这些主轴实际上是矩阵 A ~\mathbf{A}~的特征向量,它们构成了 Rn ~\mathbb{R^n}~的一个标准正交基。

3.2 几何意义

主轴变换的几何意义在于通过坐标系的旋转,将复杂的二次型图形转化为标准形式。二次型 xTAx=c ~\mathbf{x}^T\mathbf{A}\mathbf{x} = c~( c 为常数)(~c~\text{为常数})对应的几何图形可能是椭圆、双曲线、直线等,具体形态取决于矩阵 A ~\mathbf{A}~的特征值和常数 c ~c~的符号。例如,当A \mathbf{A}~为非对角矩阵时,图形处于非主轴位置,且二次型有交叉项。通过对 A ~\mathbf{A}~进行标准化处理,实际上是将图形旋转到由 A ~\mathbf{A}~的特征向量定义的主轴位置。这一过程可以通过下面的动画展示:

开通会员解锁全部动画

3.3 动画中的两个示例

  • 二次型矩阵为:
    A=[5225]\mathbf{A} = \begin{bmatrix}5 & -2 \\ -2 & 5\end{bmatrix}
  • A \mathbf{A}~的特征值为 λ1=3, λ2=7 ~\lambda_1 = 3,~\lambda_2 = 7~,对应的单位特征向量为:
    u1=[1/21/2],u2=[1/21/2]\mathbf{u}_1 = \begin{bmatrix}1/\sqrt{2} \\ 1/\sqrt{2}\end{bmatrix},\quad \mathbf{u}_2 = \begin{bmatrix}-1/\sqrt{2} \\ 1/\sqrt{2}\end{bmatrix}
  • 变量替换:
    x=Py,P=[1/21/21/21/2]\mathbf{x} = \mathbf{P}\mathbf{y},\quad \mathbf{P} = \begin{bmatrix}1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2}\end{bmatrix}
  • 二次型的标准形式为:
    yTDy=3y12+7y22\mathbf{y}^T\mathbf{D}\mathbf{y} = 3y_1^2 + 7y_2^2

  • 二次型矩阵为:
    A=[1445]\mathbf{A} = \begin{bmatrix}1 & -4 \\ -4 & -5\end{bmatrix}
  • A \mathbf{A}~的特征值为 λ1=3, λ2=7 ~\lambda_1 = 3,~\lambda_2 = -7~,对应的单位特征向量为:
    u1=[2/51/5],u2=[1/52/5]\mathbf{u}_1 = \begin{bmatrix}-2/\sqrt{5} \\ 1/\sqrt{5}\end{bmatrix},\quad \mathbf{u}_2 = \begin{bmatrix}1/\sqrt{5} \\ 2/\sqrt{5}\end{bmatrix}
  • 变量替换:
    x=Py,P=[2/51/51/52/5]\mathbf{x} = \mathbf{P}\mathbf{y},\quad \mathbf{P} = \begin{bmatrix}-2/\sqrt{5} & 1/\sqrt{5} \\ 1/\sqrt{5} & 2/\sqrt{5}\end{bmatrix}
  • 二次型的标准形式为:
    yTDy=3y127y22\mathbf{y}^T\mathbf{D}\mathbf{y} = 3y_1^2 - 7y_2^2

4. 二次型的分类与性质

 A ~\mathbf{A}~是一个 n×n ~n\times n~矩阵时,二次型 Q(x)=xTAx ~Q(x) = \mathbf{x}^T\mathbf{A}\mathbf{x}~是一个定义域为 Rn ~\mathbb{R^n}~的实值函数。对于二维空间中的二次型 Q(x)=xTAx ~Q(x)=\mathbf{x}^T\mathbf{A}\mathbf{x}~,其几何图形可以通过 z=Q(x) ~z=Q(x)~来表示,其中 z ~z~是二次型在点 (x1,x2) ~(x_1,x_2)~处的值。此时, (x1,x2,z) ~(x_1,x_2,z)~表示的是三维空间中的图形。下面的三维场景展示了四个不同的二次型图形:

(1)z=3x12+7x22(1)\quad z=3x_1^2+7x_2^2: 这是一个正定(Positive Definite)(\textbf{Positive Definite})二次型,对于所有非零向量 x ~\mathbf{x}~Q(x)>0Q(\mathbf{x})>0。它对应的图形是一个开口向上的椭圆抛物面。

(2)z=3x12(2)\quad z=3x_1^2: 这是一个半正定(Positive Semidefinite)(\textbf{Positive Semidefinite})二次型,对于所有向量 x ~\mathbf{x}~Q(x)0Q(\mathbf{x}) \geq 0。它对应的图形是一个开口向上的抛物线。

(3)z=3x127x22(3)\quad z=3x_1^2-7x_2^2: 这是一个不定(Indefinite)(\textbf{Indefinite})二次型,存在某些向量 x ~\mathbf{x}~使得Q(x)>0Q(\mathbf{x}) > 0,另一些向量 x ~\mathbf{x}~使得Q(x)<0Q(\mathbf{x})<0。 它对应的图形是一个双曲抛物面(形状像马鞍,又叫马鞍面)。

(4)z=3x127x22(4)\quad z=-3x_1^2-7x_2^2:它是一个负定(Negative Definite)(\textbf{Negative Definite})二次型,对应图形是一个开口向下的椭圆抛物面。

通过对二次型的定号性(如正定、负定、不定等)进行分类,我们可以更好地理解其几何性质、代数性质以及在实际问题中的应用。例如,在优化问题中,正定二次型对应于严格凸函数,具有唯一的最小值;负定二次型对应于严格凹函数,具有唯一的最大值;而不定二次型则可能具有鞍点。

二次型矩阵 A ~\mathbf{A}~的特征值的符号直接决定了二次型的定号性,进而决定了其几何图形的形状和方向。通过研究特征值,我们可以快速判断二次型的性质,有以下定理:

  1. 应用主轴定理
    • 根据主轴定理,存在一个正交变换 x=Py ~\mathbf{x} = \mathbf{P}\mathbf{y}~,其中 P ~\mathbf{P}~是一个正交矩阵(PT=P1)(\mathbf{P}^T = \mathbf{P}^{-1}),使得:
      Q(x)=xTAx=yTDyQ(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x} = \mathbf{y}^T\mathbf{D}\mathbf{y}
      其中 D ~\mathbf{D}~是对角矩阵,其对角线元素是 A ~\mathbf{A}~的特征值 λ1,λ2,,λn ~\lambda_1,\lambda_2,\cdots,\lambda_n~
  2. 将二次型转化为标准形式
    • 通过正交变换,二次型 Q(x) ~Q(\mathbf{x})~可以表示为:
      Q(x)=yTDy=λ1y12+λ2y22++λnyn2Q(\mathbf{x}) = \mathbf{y}^T\mathbf{D}\mathbf{y} = \lambda_1y_1^2 + \lambda_2y_2^2 + \cdots + \lambda_ny_n^2
  3. 分析特征值的符号
    • 由于 P ~\mathbf{P}~是可逆的, x ~\mathbf{x}~ y ~\mathbf{y}~之间存在一一对应关系。因此, Q(x) ~Q(\mathbf{x})~的值(对于 x0 ~\mathbf{x} \neq \mathbf{0}~)与标准形式 yTDy ~\mathbf{y}^T\mathbf{D}\mathbf{y}~的值一致。

    • 标准形式 yTDy=yTDy=λ1y12+λ2y22++λnyn2 ~\mathbf{y}^T\mathbf{D}\mathbf{y} = \mathbf{y}^T\mathbf{D}\mathbf{y} = \lambda_1y_1^2 + \lambda_2y_2^2 + \cdots + \lambda_ny_n^2~的值完全由特征值 λ1,λ2,,λn ~\lambda_1,\lambda_2,\cdots,\lambda_n~的符号决定。

  4. 根据特征值的符号分类
    • 正定:如果所有特征值 λi>0 ~\lambda_i > 0~,则对于所有非零 y ~\mathbf{y}~yTDy>0\mathbf{y}^T\mathbf{D}\mathbf{y} > 0,因此 Q(x)>0 ~Q(\mathbf{x}) > 0~对所有非零 x ~\mathbf{x}~成立。

    • 负定:如果所有特征值 λi<0 ~\lambda_i < 0~,则对于所有非零 y ~\mathbf{y}~yTDy<0\mathbf{y}^T\mathbf{D}\mathbf{y} < 0,因此 Q(x)<0 ~Q(\mathbf{x}) < 0~对所有非零 x ~\mathbf{x}~成立。

    • 不定:如果特征值有正有负,则存在某些 y ~\mathbf{y}~使得yTDy>0\mathbf{y}^T\mathbf{D}\mathbf{y} > 0,另一些 y ~\mathbf{y}~使得yTDy<0\mathbf{y}^T\mathbf{D}\mathbf{y} < 0,因此 Q(x) ~Q(\mathbf{x})~既取正值又取负值。

根据定理 5 ~5~,我们可以通过分析矩阵的特征值来判断一个二次型属于哪一种类型。例如,判断二次型 Q(x)=3x12+2x22+x32+4x1x2+4x2x3 ~Q(x) = 3x_1^2 + 2x_2^2 + x_3^2 + 4x_1x_2 + 4x_2x_3~是否为正定的。尽管这个二次型的所有系数都是正的,看起来像是正定的,但其矩阵:
A=[320222021]\mathbf{A} = \begin{bmatrix}3 & 2 & 0\\2 & 2 & 2 \\ 0 & 2 & 1\end{bmatrix}
的特征值为 λ1=5,λ2=2,λ3=1 ~\lambda_1 = 5,\lambda_2 = 2,\lambda_3 = -1~。因此,Q(x) Q(x)~是一个不定二次型。它所对应的几何图形为单叶双曲面:

对二次型的分类可以应用于其对应的对称矩阵上。具体来说,如果某个对称矩阵 A ~\mathbf{A}~对应的二次型 xTAx ~\mathbf{x}^T\mathbf{A}\mathbf{x}~是正定的(等价于 A ~\mathbf{A}~的特征值均为正),那么我们称矩阵 A ~\mathbf{A}~正定矩阵(positive definite matrix)(\textbf{positive definite matrix})。类似地,如果二次型是负定的(特征值全负),则 A ~\mathbf{A}~负定矩阵(negative definite matrix)(\textbf{negative definite matrix}),以此类推。