## 奇异值与椭圆的直观联系
矩阵本质上是在做**空间变换**。如果我们把一个单位圆(所有单位向量的集合)丢进一个矩阵 $A$ 中,输出的结果会描绘出一个椭圆。
**奇异值(Singular Values)** 对应的就是这个椭圆的各个**半轴长度**。
### 为什么要用单位圆来测试?
选择单位圆是因为它“不偏心”——它在各个方向上都是均匀的。单位圆是唯一具有完美旋转对称性的二维图形,这保证了输出椭圆中表现出的任何“不对称性”,都完全源于矩阵本身。
- **对比:** 如果用长方形或三角形去测试,它们自带的角、边和轴线会污染测量结果,让你分不清形状的改变是因为矩阵,还是因为图形本身。
- **中立探测器:** 输入端的最大对称性意味着输出端的所有偏差都只能归功于 $A$。
- **隐形仪器:** 圆形只是一个工具,它必须是“隐形”的,好让矩阵能真实地“发言”。
在更高维的空间里,单位圆会推广为 $\mathbb{R}^n$ 中的单位球,而矩阵将其映射为超椭球体。奇异值依然对应这个超椭球体的半轴长度。
---
## SVD:分解过程
任何矩阵 $A$ 都可以分解为:
$A = U \Sigma V^\top$
这是一个**普适性**结论——无论是长方形矩阵、正方形矩阵,还是秩亏损矩阵,通通适用。
### 三个核心组件
|**矩阵**|**类型**|**作用**|
|---|---|---|
|$V^\top$|正交矩阵(旋转)|将输入向量旋转到矩阵的“自然坐标系”中|
|$\Sigma$|对角矩阵(拉伸)|沿着坐标轴按奇异值 $\sigma_i$ 进行缩放|
|$U$|正交矩阵(旋转)|将缩放后的结果旋转到最终的输出空间|
**底层逻辑:** 每个矩阵骨子里其实只做了三件事:**旋转 $\rightarrow$ 拉伸 $\rightarrow$ 旋转**。矩阵内部没有任何比这更玄乎的操作了。
---
## SVD 就像工厂流水线
以 $A = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}$ 为例。
通过 SVD,我们得到 $U = V$(均为 45° 旋转矩阵),$\Sigma = \text{diag}(3, 1)$。
假设输入向量 $x = [1, 0]^\top$:
1. **第一步 — $V^\top$ 旋转:**
$V^\top \begin{bmatrix} 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$
此时没有拉伸,只是在矩阵的自然轴上重新表达了输入。
2. **第二步 — $\Sigma$ 拉伸:**
$\Sigma \begin{bmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix} = \begin{bmatrix} 3/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix}$
这是唯一改变向量大小的阶段。**圆就是在这里变成椭圆的。**
3. **第三步 — $U$ 旋转:**
$U \begin{bmatrix} 3/\sqrt{2} \\ 1/\sqrt{2} \end{bmatrix} = \begin{bmatrix} 2 \\ 1 \end{bmatrix}$
直接验证结果:$A \cdot [1, 0]^\top = [2, 1]^\top$。完全吻合。
---
## V 和 U:天然的基底
### 核心方程
$A v_i = \sigma_i u_i$
这个公式的意思是:你喂进一个 $v_i$,得到的是一个只经过缩放(倍数为 $\sigma_i$)的 $u_i$。没有扭曲,没有乱七八糟的额外旋转,只有**纯粹的缩放**。
- **$V$ 的列** 是输入空间的“天然基底”——在这些特殊方向上,矩阵的行为最纯粹,不存在方向耦合。
- **$U$ 的列** 是输出空间的“天然基底”——即上述纯净方向变换后的着陆点。
进一步讲解U和V的计算含义 [[SVD - Where V and U Come From]]
### 选对坐标系,万物皆对角
在标准坐标系下,$A$ 看起来很杂乱。但如果通过 $V$ 和 $U$ 来重新审视,它就变成了 $\Sigma$——纯对角矩阵。**矩阵本身并不复杂,它显得复杂只是因为我们之前用了错误的坐标系。**
---
## 对称矩阵的特殊之处
对于对称矩阵 $A$,$U = V$。这意味着输入和输出的基底是重合的——矩阵接收到什么方向,就沿着什么方向拉伸。这就是为什么对称矩阵的特征向量图像看起来那么整洁。
**特征向量示例:** $A = \begin{bmatrix} 4 & 2 \\ 2 & 4 \end{bmatrix}$
特征值:$\lambda_1 = 6, \lambda_2 = 2$;特征向量:$v_1 = [1,1]^\top/\sqrt{2}, v_2 = [1,-1]^\top/\sqrt{2}$。
如果输入一个随机向量 $[1, 0]^\top$(它不是特征向量):
$A \begin{bmatrix} 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 4 \\ 2 \end{bmatrix}$
输出方向变了,旋转和拉伸混在了一起。**矩阵只对自己的特征向量展现出纯粹的一面。** 之前的“耦合”其实是错觉,真相是它在 45° 方向拉伸了 6 倍,在 135° 方向拉伸了 2 倍。
---
## 二次型与极值问题
### 核心问题
对于对称矩阵 $A$,在单位球 $|x| = 1$ 的约束下,二次型 $x^\top A x$ 的最大值和最小值是多少?
### 变量代换
利用对称矩阵的 SVD(即特征分解) $A = Q \Lambda Q^\top$。令 $y = Q^\top x$:
$x^\top A x = x^\top Q \Lambda Q^\top x = y^\top \Lambda y = \sum_i \lambda_i y_i^2$
### 为什么要求 $|y| = 1$?
因为 $Q$ 是正交矩阵,它只是旋转,不改变长度。所以:
$|y| = |Q^\top x| = |x| = 1$
旋转不会把球变成别的形状,这让代换非常干净。如果换成非正交基,球会变成椭球,整个推导就崩塌了。
### 加权平均的视角
既然 $|y|^2 = \sum_i y_i^2 = 1$,且 $y_i^2 \geq 0$,那么 $y_i^2$ 实际上就是一组**权重**。
因此,$\sum_i \lambda_i y_i^2$ 就是特征值的**加权平均数**。$y$ 决定了给每个特征值分配多少权重。
### 极值结论
加权平均数一定落在最小值和最大值之间:
$\lambda_{\min} \leq x^\top A x \leq \lambda_{\max}$
- **最大值:** 当权重全部分配给 $\lambda_{\max}$ 时取得(此时 $x$ 为对应的特征向量)。
- **最小值:** 当权重全部分配给 $\lambda_{\min}$ 时取得。
这就是 **瑞利商(Rayleigh quotient)** 的直观解释。SVD 和特征基底让这一切变得透明:如果不进行对角化,二次型就是一堆交叉项的乱麻;一旦找准基底,交叉项全部消失,几何本质不过是一场简单的加权游戏。
---
## 核心概念速查表
|**概念**|**直观理解**|
|---|---|
|**奇异值**|变换后的单位圆(椭圆)的半轴长度|
|**单位圆**|无偏见的探测器,确保输出的不对称性完全来自矩阵 $A$|
|**$V$**|输入空间的自然基底;$A$ 在这些方向上作用最纯粹|
|**$U$**|输出空间的自然基底;即变换后的纯净方向|
|**$\Sigma$**|唯一的拉伸环节;连接 $V$ 世界和 $U$ 世界的桥梁|
|**SVD**|只要选对基底,任何矩阵本质上都是对角矩阵|
|**对称矩阵**|$U=V$;输入和输出共用一套基底|
|**二次型极值**|特征值的加权平均;最值即最大/最小特征值|