## 1. 转置与逆的有趣性质 对于任何可逆矩阵,转置和求逆这两个操作是可以互换顺序的: $\left(A^{-1}\right)^T = \left(A^T\right)^{-1}$ 证明这个结论其实只需要一个核心技巧。我们从单位矩阵的定义 $AA^{-1} = I$ 出发,对等号两边同时取转置,并利用乘法转置规则 $(AB)^T = B^T A^T$: $(A^{-1})^T A^T = I$ 这个等式直观地告诉我们:$(A^{-1})^T$ 就是 $A^T$ 的左逆矩阵。因此,它必然等于 $(A^T)^{-1}$。这里需要注意的是,这个性质只要求矩阵**可逆**,并不需要它是正交矩阵。 ## 2. 深入理解正交矩阵 如果一个方阵 $P$ 满足 $P^T P = I$,即 $P^T = P^{-1}$,我们就称它为**正交矩阵**。 虽然名字叫“正交”,但这其实是个历史遗留的命名小陷阱:正交矩阵的列向量不仅要彼此**正交**(垂直),长度还必须为 **1**。准确来说,它们应该是“标准正交”的。 我们可以通过观察 $P^T P$ 的每一个元素来理解这一点:第 $(i, j)$ 个元素实际上是第 $i$ 列和第 $j$ 列的内积。要让结果等于单位矩阵 $I$,必须满足: $p_i \cdot p_j = \begin{cases} 1 & i = j \\ 0 & i \neq j \end{cases}$ 所以,“$P$ 是正交矩阵”和“$P^T = P^{-1}$”其实是在表达同一件事。 ### 几何特性 从几何上看,正交矩阵代表的是**旋转**或**镜像反射**,它绝不会伸缩空间。这是因为它能够保持向量的长度不变: $\|Px\|^2 = (Px)^T(Px) = x^T P^T P x = x^T x = \|x\|^2$ 既然长度保住了,角度自然也就保住了。我们可以通过**极化恒等式 (Polarization Identity)** 看到这一点,它用长度表达了内积: $u \cdot v = \frac{1}{2}\left(\|u + v\|^2 - \|u\|^2 - \|v\|^2\right)$ 如果一个变换不改变任何长度,那么等号右边的每一项都不会变,内积也就不会变,从而角度得以维持。可以说,**长度决定了角度**。 ### 其他关键推论 - 行列式 $\det(P) = \pm 1$。 - 实特征值只能是 $+1$ 或 $-1$。 - 若 $\det(P) = +1$,它是纯旋转;若 $\det(P) = -1$,则包含了一次镜像。 --- ## 3. 矩阵对角化 (Diagonalization) 如果一个 $n$ 阶方阵 $A$ 有 $n$ 个线性无关的特征向量,它就可以对角化: $A = P D P^{-1}$ 其中 $P$ 的每一列是特征向量,$D$ 的对角线元素是对应的特征值。 **注意:** 在一般的对角化中,$P$ 并不一定是正交矩阵。特征向量只需要线性无关即可,不需要垂直,也不需要单位长度。 当我们处理对称矩阵等特殊情况时,$P$ 恰好是正交矩阵,此时 $P^{-1} = P^T$,公式变为: $D = P^T A P$ --- ## 谱定理 (The Spectral Theorem) 对于**对称矩阵**(满足 $A = A^T$),其对角化过程总能产生一个正交矩阵 $P$。这就是所谓的“谱定理”。在这里,特征向量的正交性并不是人为假设的预设条件,而是对称性带来的必然结果。 ### 核心推导过程 假设有两个特征向量 $v$ 和 $w$,它们分别对应不同的特征值 $\lambda \neq \mu$。我们可以通过两种不同的视角来计算 $\lambda(v \cdot w)$: $\lambda(v \cdot w) = (Av) \cdot w = v \cdot (A^T w) = v \cdot (Aw) = \mu(v \cdot w)$ 这串等式的关键在于中间的 **“转置移动” (transpose move)**。对于任何矩阵 $A$ 和向量 $v, w$,你都可以将矩阵 $A$ 在点积符号两边“移动”,代价是必须对其取转置: $(Av) \cdot w = (Av)^T w = v^T A^T w = v \cdot (A^T w)$ 事实上,这个恒等式有时直接被用作 $A^T$ 的定义。 ### 对称性的威力 当我们引入 **$A = A^T$(对称性)** 这一条件时,上述推导的中间项就变成了: $v \cdot (Aw) = \mu(v \cdot w)$ 将首尾相连,我们得到 $\lambda(v \cdot w) = \mu(v \cdot w)$。由于我们前提设定了 $\lambda \neq \mu$,那么唯一的可能就是: $v \cdot w = 0$ 结论很明确:**对称性强制要求特征向量必须彼此垂直**。 对于那些拥有重复特征值的特征空间(重特征根),我们可以通过 [[Dot Product & Gram-Schmidt - A Geometric Reading | Gram-Schmidt]] 过程构造出剩余的标准正交向量。最终,所有的特征向量构成了正交矩阵 $P$,使得矩阵分解的形式变为: $A = P D P^T$ --- ## 5. 奇异值分解 (SVD) [[讲讲奇异值分解SVD|SVD]]是对角化的终极泛化。它适用于任何矩阵——长方形的、亏损的、随意的。 $A = U \Sigma V^T$ 这里 $U$ 和 $V$ 都是正交矩阵,$\Sigma$ 是对角矩阵,其对角线上的非负元素 $\sigma_i$ 称为**奇异值**。 **SVD 与对角化的核心区别:** - **对角化**是在同一个空间内操作,两边使用相同的基 $P$。 - **SVD** 使用了两套不同的正交基:$V$ 作用于输入空间,$U$ 作用于输出空间。 ### 奇异值的几何直观 任何矩阵 $A$ 都会把一个单位球体变成一个椭球体。奇异值 $\sigma_i$ 正是这个椭球体各条半轴的长度。 整个过程可以拆解为三步: 1. **旋转 ($V^T$)**:旋转输入空间,对齐拉伸方向。 2. **拉伸 ($\Sigma$)**:按 $\sigma_i$ 的比例缩放各个轴。 3. **再旋转 ($U$)**:将结果旋转到输出空间的最终方向。 ### SVD 的内部构造 计算 SVD 实际上是把对角化用在了相关的对称矩阵上: - $V$ 的列是 $A^T A$ 的特征向量。 - $U$ 的列是 $A A^T$ 的特征向量。 - 奇异值 $\sigma_i = \sqrt{\lambda_i(A^T A)}$。 具体推导可以见[[SVD - Where V and U Come From]] --- ## 总结:它们何时殊途同归? 对角化关注的是矩阵“内在”的特征结构,而 SVD 关注的是矩阵如何“变换”空间。 当 $A$ 是**对称正定矩阵**时,两者合二为一: - 对称性保证了 $P$ 是正交的(谱定理)。 - 正定性保证了所有特征值非负。 此时,奇异值等于特征值,$U = V = P$,两种分解完全相同。 如果对称矩阵包含负特征值,SVD 和对角化仍会有细微差别,因为奇异值必须是非负的,负号会被吸收进 $U$ 矩阵中。