矩阵分解：从基础到 SVD

## 1. 转置与逆的有趣性质对于任何可逆矩阵，转置和求逆这两个操作是可以互换顺序的： $\left(A^{-1}\right)^T = \left(A^T\right)^{-1}$ 证明这个结论其实只需要一个核心技巧。我们从单位矩阵的定义 $AA^{-1} = I$ 出发，对等号两边同时取转置，并利用乘法转置规则 $(AB)^T = B^T A^T$： $(A^{-1})^T A^T = I$ 这个等式直观地告诉我们：$(A^{-1})^T$ 就是 $A^T$ 的左逆矩阵。因此，它必然等于 $(A^T)^{-1}$。这里需要注意的是，这个性质只要求矩阵**可逆**，并不需要它是正交矩阵。 ## 2. 深入理解正交矩阵如果一个方阵 $P$ 满足 $P^T P = I$，即 $P^T = P^{-1}$，我们就称它为**正交矩阵**。虽然名字叫“正交”，但这其实是个历史遗留的命名小陷阱：正交矩阵的列向量不仅要彼此**正交**（垂直），长度还必须为 **1**。准确来说，它们应该是“标准正交”的。我们可以通过观察 $P^T P$ 的每一个元素来理解这一点：第 $(i, j)$ 个元素实际上是第 $i$ 列和第 $j$ 列的内积。要让结果等于单位矩阵 $I$，必须满足： $p_i \cdot p_j = \begin{cases} 1 & i = j \\ 0 & i \neq j \end{cases}$ 所以，“$P$ 是正交矩阵”和“$P^T = P^{-1}$”其实是在表达同一件事。 ### 几何特性从几何上看，正交矩阵代表的是**旋转**或**镜像反射**，它绝不会伸缩空间。这是因为它能够保持向量的长度不变： $\|Px\|^2 = (Px)^T(Px) = x^T P^T P x = x^T x = \|x\|^2$ 既然长度保住了，角度自然也就保住了。我们可以通过**极化恒等式 (Polarization Identity)** 看到这一点，它用长度表达了内积： $u \cdot v = \frac{1}{2}\left(\|u + v\|^2 - \|u\|^2 - \|v\|^2\right)$ 如果一个变换不改变任何长度，那么等号右边的每一项都不会变，内积也就不会变，从而角度得以维持。可以说，**长度决定了角度**。 ### 其他关键推论 - 行列式 $\det(P) = \pm 1$。 - 实特征值只能是 $+1$ 或 $-1$。 - 若 $\det(P) = +1$，它是纯旋转；若 $\det(P) = -1$，则包含了一次镜像。 --- ## 3. 矩阵对角化 (Diagonalization) 如果一个 $n$ 阶方阵 $A$ 有 $n$ 个线性无关的特征向量，它就可以对角化： $A = P D P^{-1}$ 其中 $P$ 的每一列是特征向量，$D$ 的对角线元素是对应的特征值。 **注意：** 在一般的对角化中，$P$ 并不一定是正交矩阵。特征向量只需要线性无关即可，不需要垂直，也不需要单位长度。当我们处理对称矩阵等特殊情况时，$P$ 恰好是正交矩阵，此时 $P^{-1} = P^T$，公式变为： $D = P^T A P$ --- ## 谱定理 (The Spectral Theorem) 对于**对称矩阵**（满足 $A = A^T$），其对角化过程总能产生一个正交矩阵 $P$。这就是所谓的“谱定理”。在这里，特征向量的正交性并不是人为假设的预设条件，而是对称性带来的必然结果。 ### 核心推导过程假设有两个特征向量 $v$ 和 $w$，它们分别对应不同的特征值 $\lambda \neq \mu$。我们可以通过两种不同的视角来计算 $\lambda(v \cdot w)$： $\lambda(v \cdot w) = (Av) \cdot w = v \cdot (A^T w) = v \cdot (Aw) = \mu(v \cdot w)$ 这串等式的关键在于中间的 **“转置移动” (transpose move)**。对于任何矩阵 $A$ 和向量 $v, w$，你都可以将矩阵 $A$ 在点积符号两边“移动”，代价是必须对其取转置： $(Av) \cdot w = (Av)^T w = v^T A^T w = v \cdot (A^T w)$ 事实上，这个恒等式有时直接被用作 $A^T$ 的定义。 ### 对称性的威力当我们引入 **$A = A^T$（对称性）** 这一条件时，上述推导的中间项就变成了： $v \cdot (Aw) = \mu(v \cdot w)$ 将首尾相连，我们得到 $\lambda(v \cdot w) = \mu(v \cdot w)$。由于我们前提设定了 $\lambda \neq \mu$，那么唯一的可能就是： $v \cdot w = 0$ 结论很明确：**对称性强制要求特征向量必须彼此垂直**。对于那些拥有重复特征值的特征空间（重特征根），我们可以通过 [[Dot Product & Gram-Schmidt - A Geometric Reading | Gram-Schmidt]] 过程构造出剩余的标准正交向量。最终，所有的特征向量构成了正交矩阵 $P$，使得矩阵分解的形式变为： $A = P D P^T$ --- ## 5. 奇异值分解 (SVD) [[讲讲奇异值分解SVD|SVD]]是对角化的终极泛化。它适用于任何矩阵——长方形的、亏损的、随意的。 $A = U \Sigma V^T$ 这里 $U$ 和 $V$ 都是正交矩阵，$\Sigma$ 是对角矩阵，其对角线上的非负元素 $\sigma_i$ 称为**奇异值**。 **SVD 与对角化的核心区别：** - **对角化**是在同一个空间内操作，两边使用相同的基 $P$。 - **SVD** 使用了两套不同的正交基：$V$ 作用于输入空间，$U$ 作用于输出空间。 ### 奇异值的几何直观任何矩阵 $A$ 都会把一个单位球体变成一个椭球体。奇异值 $\sigma_i$ 正是这个椭球体各条半轴的长度。整个过程可以拆解为三步： 1. **旋转 ($V^T$)**：旋转输入空间，对齐拉伸方向。 2. **拉伸 ($\Sigma$)**：按 $\sigma_i$ 的比例缩放各个轴。 3. **再旋转 ($U$)**：将结果旋转到输出空间的最终方向。 ### SVD 的内部构造计算 SVD 实际上是把对角化用在了相关的对称矩阵上： - $V$ 的列是 $A^T A$ 的特征向量。 - $U$ 的列是 $A A^T$ 的特征向量。 - 奇异值 $\sigma_i = \sqrt{\lambda_i(A^T A)}$。具体推导可以见[[SVD - Where V and U Come From]] --- ## 总结：它们何时殊途同归？对角化关注的是矩阵“内在”的特征结构，而 SVD 关注的是矩阵如何“变换”空间。当 $A$ 是**对称正定矩阵**时，两者合二为一： - 对称性保证了 $P$ 是正交的（谱定理）。 - 正定性保证了所有特征值非负。此时，奇异值等于特征值，$U = V = P$，两种分解完全相同。如果对称矩阵包含负特征值，SVD 和对角化仍会有细微差别，因为奇异值必须是非负的，负号会被吸收进 $U$ 矩阵中。