## 7.1 奇异值分解SVD和对称矩阵谱分解

7.1 奇异值分解SVD和对称矩阵谱分解

矩阵 $A_{mn},rank A=r < (m, n)$ 是亏秩矩阵时，虽然高斯消元法可以求得方程 $A\mathbf{x}=\mathbf{b}$ 的解，很可惜的是，采用高斯消元法，有两个缺点：第一是，当方程不存在精确解时，高斯消元法无法得到最小二乘解；第二是，当方程存在精确解时，其解的结构是特解加零解。当选择不同的矩阵 $A$ 列空间的极大无关组时，可以求得不同的特解，理论上存在无穷多特解满足方程 $A\mathbf{x}=\mathbf{b}$ ，一般情况下，我们希望获得最特殊的特解－－最小范数解，即所有特解中，内积最小特解 $\min\| \mathbf{x}_p \|$ 。

由于矩阵 $A$ 是亏秩矩阵，其列向量不是 $R^m$ 空间的基，故不是任意 $\mathbf{b}$ 都有精确解，只有当 $\mathbf{b}$ 位于矩阵 $A$ 列空间时，才存在精确解，否则只能获得最小二乘解。令向量 $\mathbf{b}$ 向矩阵 $A$ 列空间的投影向量为 $\mathbf{b}_p$ ，则方程 $A\mathbf{x} = \mathbf{b}_p$ 有精确解，称为最小二乘解，由于矩阵 $A$ 不是列满秩矩阵，故不能采用第五章方法获得最小二乘解。同时由于矩阵 $A$ 列向量组是相关组，故方程 $A\mathbf{x} = \mathbf{b}_p$ 有无穷多解，其解的结构是特解加零解，我们希望获得最小范数特解。综上，对于方程 $A\mathbf{x}=\mathbf{b}$ ，对任意向量 $\mathbf{b}$ ，我们希望获得最小范数最小二乘解和零解。

方程 $A\mathbf{x}=\mathbf{b}$ 的解空间为 $R^n$ 空间，令向量组 $\mathbf{v}_i,i=1,\cdots,n$ 是 $R^n$ 空间中任意 $n$ 个线性无关的单位向量，则向量组 $A\mathbf{v}_i,i=1,\cdots,n$ 是 $R^m$ 空间中向量，对其进行单位化，得 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i,\mathbf{u}_i是单位向量，\sigma_i \ge 0是向量A\mathbf{v}_i的长度$ 。向量 $A^T\mathbf{u}_i$ 是 $n$ 维，所以位于 $R^n$ 空间，故其能被该空间的基表示，向量组 $\mathbf{v}_i,i=1,\cdots,n$ 是 $R^n$ 空间的基，故 $A^T\mathbf{u}_i$ 能被向量组 $\mathbf{v}_i,i=1,\cdots,n$ 线性表示，所以令 $A^T\mathbf{u}_i = \sum^n_{j=1}k_{ij}\mathbf{v}_j$ 。令矩阵 $V=[\mathbf{v}_1,\cdots,\mathbf{v}_n]$ ，则
$A^TA\mathbf{v}_i = A^T(A\mathbf{v}_i)=A^T\sigma_i\mathbf{u}_i=\sigma_i\sum^n_{j=1}k_{ij}\mathbf{v}_j=V\Lambda_i \\ 其中向量 \Lambda_i=(\sigma_ik_{i1},\sigma_ik_{i2},\cdots,\sigma_ik_{in})$

故
$A^TA[\mathbf{v}_1,\cdots,\mathbf{v}_n] = V[\Lambda_1,\cdots,\Lambda_n]\\ A^TAV=V\Lambda\\ A^TA = V\Lambda V^{-1}$

$V$ 是 $R^n$ 空间中的任意基，如何选择该基，能使 $V\Lambda V^{-1}$ 最简洁？表达式涉及矩阵 $V$ 的逆，故希望求逆简单。能直接获得矩阵逆的矩阵有正交矩阵，对角阵，单位阵，矩阵 $V$ 为对角阵或单位阵，则会造成矩阵 $\Lambda$ 复杂。矩阵 $V$ 为正交矩阵时，能使矩阵 $\Lambda$ 为对角阵！该性质就是对称矩阵谱分解定理。

对称矩阵谱分解定理 任意对称矩阵 $S$ 能分解为正交矩阵 $Q$ 和对角阵 $\Lambda$ ，且满足 $S=Q\Lambda Q^T$ 。

令 $Q=[\mathbf{q}_1,\cdots,\mathbf{q}_n]$ 和 $\Lambda=diag(\lambda_1,\cdots,\lambda_n)$ 。

$S=Q\Lambda Q^T = [\mathbf{q}_1,\cdots,\mathbf{q}_n]diag(\lambda_1,\cdots,\lambda_n)[\mathbf{q}_1,\cdots,\mathbf{q}_n]^T=[\mathbf{q}_1,\cdots,\mathbf{q}_n]\left[ \begin{matrix} \lambda_1\mathbf{q}^T_1 \\ \vdots \\ \lambda^T_n\mathbf{q}^T_n \end{matrix} \right]\\ =\lambda_1\mathbf{q}_1\mathbf{q}^T_1 + \cdots + \lambda_n\mathbf{q}_n\mathbf{q}^T_n\\ = \sum^n_{i=1}\lambda_i\mathbf{q}_i\mathbf{q}^T_i$

注意 $\mathbf{u}\mathbf{v}^T$ 是矩阵，称为向量外积，需要与向量内积区分。因为 $rank (\mathbf{q}_i\mathbf{q}^T_i) = 1$ ， $S = Q\Lambda Q^T = \lambda_1\mathbf{q}_1\mathbf{q}^T_1 + \cdots + \lambda_n\mathbf{q}_n\mathbf{q}^T_n$ ，这表明对称矩阵可分解为 $n$ 个简单矩阵（秩为 $1$ ） $\mathbf{q}_i\mathbf{q}^T_i$ 之和，其系数为 $\lambda_i$ 。因为 $\mathbf{q}_i$ 都是单位向量，故 $\lambda_i$ 绝对值大的分量更重要，是主成分。

因为 $Q$ 是正交矩阵，故 $\mathbf{q}_i\mathbf{q}^T_i=1 ,\mathbf{q}_i\mathbf{q}^T_j = 0 \quad for \quad i \ne j$ ，所以 $S \mathbf{q}_i = (\lambda_1\mathbf{q}_1\mathbf{q}^T_1 + \cdots + \lambda_n\mathbf{q}_n\mathbf{q}^T_n)\mathbf{q}_i = \lambda_1\mathbf{q}_1(\mathbf{q}^T_1\mathbf{q}_i) + \cdots + \lambda_n\mathbf{q}_n(\mathbf{q}^T_n\mathbf{q}_i) ＝ \lambda_i\mathbf{q}_i$ 即 $S \mathbf{q}_i = \lambda_i\mathbf{q}_i$ ，我们称 $\lambda_i$ 为矩阵 $S$ 的特征值， $\mathbf{q}_i$ 为对应的特征向量。

$rank S = rank (Q\Lambda Q^T) = rank (\Lambda Q^T) = rank \Lambda$
所以对角元素 $\lambda_i$ 非零数目等于矩阵 $S$ 的秩。

后面证明该定理。

因为矩阵 $A^TA$ 是对称矩阵，故能分解为 $A^TA=V\Lambda V^T$ ，得到正交矩阵 $V =[\mathbf{v}_1,\cdots,\mathbf{v}_n]$ 和对角阵 $\Lambda$ 的对角元素 $\lambda_i$ 值，且对角阵 $\Lambda$ 的对角元素 $\lambda_i$ 非负。因为对任意向量 $\mathbf{x}$ ，有 $\mathbf{x}^TA^TA\mathbf{x}=(A\mathbf{x})^T(A\mathbf{x}) \ge 0$ ，故 $\mathbf{x}^TV\Lambda V^T\mathbf{x} = (V^T\mathbf{x})^T\Lambda (V^T\mathbf{x}) = \mathbf{y}^T\Lambda \mathbf{y} = \lambda_1 y^2_1 + \lambda_2 y^2_2 + \cdots + \lambda_n y^2_n \ge 0$ 成立，所以 $\lambda_i \ge 0$ 。

根据对称矩阵性质 $S \mathbf{q}_i = \lambda_i\mathbf{q}_i$ ，故 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 成立，矩阵 $A^TA$ 特征值为 $\lambda_i$ 且非负，我们习惯把特征值按降序排列，即 $\lambda_1 \ge \lambda_2 \ge \cdots \lambda_n \ge 0$ 。

根据对称矩阵性质 $S = \lambda_1\mathbf{q}_1\mathbf{q}^T_1 + \cdots + \lambda_n\mathbf{q}_n\mathbf{q}^T_n$ ，故 $A^TA = \lambda_1\mathbf{v}_1\mathbf{v}^T_1 + \cdots + \lambda_n\mathbf{v}_n\mathbf{v}^T_n$ ，由于 $\lambda_i$ 非负且按降序排列，故靠前的 $\lambda_i\mathbf{v}_i\mathbf{v}^T_i$ 占矩阵 $A^TA$ 比例更大，是主成分。

$r = rank A = rank (A^TA) = rank \Lambda$ ，所以对角元素 $\lambda_i$ 非零数目等于矩阵 $A$ 的秩！

现在证明向量组 $U=[\mathbf{u}_1,\cdots,\mathbf{u}_n]$ 两两正交。
$(\mathbf{u}^T_i\mathbf{u}_j)(\sigma_i\sigma_j) = (A\mathbf{v}_i)^T(A\mathbf{v}_j) = \mathbf{v}^T_iA^TA\mathbf{v}_j=\mathbf{v}^T_i(A^TA\mathbf{v}_j)=\mathbf{v}^T_i\lambda_j\mathbf{v}_j=\lambda_j\mathbf{v}^T_i\mathbf{v}_j$
因为向量组 $V=[\mathbf{v}_1,\cdots,\mathbf{v}_n]$ 两两正交，故得证。

当 $i=j$ 时 $(\mathbf{u}^T_i\mathbf{u}_i)(\sigma_i\sigma_i) = \lambda_i(\mathbf{v}^T_i\mathbf{v}_i)$ ，因为 $\mathbf{u}_i,\mathbf{v}_i$ 是单位向量，故 $\lambda_i = \sigma^2_i$ 。

又根据 $A^TA\mathbf{v}_i =\sigma_i\sum^n_{j=1}k_{ij}\mathbf{v}_j=\lambda_i\mathbf{v}_i$ 得 $k_{ij}=0 \quad for \quad j \ne i$ 和 $\lambda_i = \sigma_ik_{ii}$ ，得 $k_{ii} = \sigma_i$ ，所以 $A^T\mathbf{u}_i = \sum^n_{j=1}k_{ij}\mathbf{v}_j = k_{ii}\mathbf{v}_i = \sigma_i\mathbf{v}_i$ 。

$AA^T\mathbf{u}_i=A\sigma_i\mathbf{v}_i=\sigma_iA\mathbf{v}_i=\sigma_i\sigma_i\mathbf{u}_i=\lambda_i\mathbf{u}_i$ ，所以对称矩阵 $AA^T$ 特征值为 $\lambda_i$ ，对应特征向量为 $\mathbf{u}_i$ 。

综合上面结论可得矩阵的奇异值分解定理
1、首先根据对称矩阵谱分解定理，可得 $A^TA=V\Lambda V^T = \lambda_1\mathbf{v}_1\mathbf{v}^T_1 + \cdots + \lambda_n\mathbf{v}_n\mathbf{v}^T_n$ ，矩阵 $V=[\mathbf{v}_1,\cdots,\mathbf{v}_n]$ 是正交矩阵，矩阵 $\Lambda$ 是对角阵，对角元素 $\lambda_i \ge 0$ 按降序排列，非零数目等于 $rank A$ 。
2、满足如下性质
$A\mathbf{v}_i = \sigma_i\mathbf{u}_i \\ A^T\mathbf{u}_i = \sigma_i\mathbf{v}_i \\ A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i \\ AA^T\mathbf{u}_i = \lambda_i\mathbf{u}_i \\ \sigma_i = \sqrt{\lambda_i} 称为奇异值，\mathbf{v}_i称为右奇异向量，\mathbf{u}_i称为左奇异向量.$

几点说明：
1、正交矩阵 $V=[\mathbf{v}_1,\cdots,\mathbf{v}_n]$ 和对角阵 $\Lambda$ 如何获得呢？理论上可通过解方程 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 获得，具体如何解后面介绍，非零奇异值 $\sigma_i = \sqrt{\lambda_i},i=1,\cdots,r=rank A$ ， $\sigma_i$ 是向量 $A\mathbf{v}_i$ 的长度和向量 $A^T\mathbf{u}_i$ 的长度；
2、根据非零奇异值计算得到 $\mathbf{u}_i = A\mathbf{v}_i/\sigma_i,i=1,\cdots,r=rank A$ ；
3、由于向量组 $\mathbf{u}_i，i=1,\cdots,r=rank A$ 两两正交，根据基的扩充定理，可扩充 $m-r$ 个单位向量 $\mathbf{u}_i，i=r+1,\cdots,m$ ，使矩阵 $U = [\mathbf{u}_1，\cdots,\mathbf{u}_m]$ 为正交矩阵，并满足对称矩阵谱分解定理即 $AA^T=U\Lambda U^T = \lambda_1\mathbf{u}_1\mathbf{u}^T_1 + \cdots + \lambda_m\mathbf{u}_m\mathbf{u}^T_m$

根据 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ 得 $A\mathbf{v}_1 = \sigma_1\mathbf{u}_1$ ； $A\mathbf{v}_2 = \sigma_2\mathbf{u}_2$ ； $\cdots$ ； $A\mathbf{v}_r = \sigma_r\mathbf{u}_r$ ，故 $A[\mathbf{v}_1,\cdots,\mathbf{v}_r] = [\mathbf{u}_1,\cdots,\mathbf{u}_r]diag(\sigma_1,\cdots,\sigma_r)$ ，写成矩阵形式 $AV_r=U_r\Sigma_r$ ，其中矩阵 $V_r=[\mathbf{v}_1,\cdots,\mathbf{v}_r],U_r=[\mathbf{u}_1,\cdots,\mathbf{u}_r],\Sigma_r=diag(\sigma_1,\cdots,\sigma_r)$ 满足 $V^T_rV_r=E_r,U^T_rU_r=E_r$ ，注意 $V_rV^T_r\ne E_r,U_rU^T_r\ne E_r$ 。

对 $AV_r=U_r\Sigma_r$ 可进行扩充即 $A[\mathbf{v}_1,\cdots,\mathbf{v}_r,\cdots,\mathbf{v}_n] = [\mathbf{u}_1,\cdots,\mathbf{u}_r\cdots,\mathbf{u}_m]diag(\sigma_1,\cdots,\sigma_r,0,\cdots,0)$ 写成矩阵形式 $AV=U\Sigma$ ，此时矩阵 $V,U$ 均是正交矩阵，故 $A = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r$ ，这表明秩为 $r$ 的任意矩阵 $A$ 可分解为 $r$ 个简单矩阵（秩为 $1$ ）的矩阵 $\sigma_i\mathbf{u}_i\mathbf{v}^T_i$ 之和，且 $\sigma_1\ge \sigma_2 \ge \cdots \sigma_r > 0$ ，按重要性排序。这就是奇异值分解的核心。注意矩阵 $\Sigma$ 尺寸为 $(m,n)$ ，并不是对角阵，但其前 $(r,r)$ 子矩阵 $\Sigma_r$ 是对角阵，对角元素为 $\sigma_i>0$ ，矩阵其它元素均为 $0$ 。

根据 $A = U\Sigma V^T = \sigma_1\mathbf{u}_1\mathbf{v}^T_1+\cdots+\sigma_r\mathbf{u}_r\mathbf{v}^T_r$ 可得 $A^T = V\Sigma U^T = \sigma_1\mathbf{v}_1\mathbf{u}^T_1+\cdots+\sigma_r\mathbf{v}_r\mathbf{u}^T_r$ 。

$A^TA = V\Lambda V^T = \lambda_1\mathbf{v}_1\mathbf{v}^T_1 + \cdots + \lambda_r\mathbf{v}_r\mathbf{v}^T_r$ 和 $AA^T = U\Lambda U^T = \lambda_1\mathbf{u}_1\mathbf{u}^T_1 + \cdots + \lambda_r\mathbf{u}_r\mathbf{u}^T_r$ 。

举几个特殊例子说明奇异值分解。
1、对单位矩阵 $A=E$ 进行奇异值分解。根据 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 得 $E^TE\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 即 $\mathbf{v}_i = \lambda_i\mathbf{v}_i$ ，所以所有特征值 $\lambda_i=1$ 即 $\Sigma = E$ 。任意单位向量 $\mathbf{v}_i$ 均满足方程 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ ，故可取任意正交矩阵 $V$ ，它们均是特征值 $1$ 对应的特征向量。根据 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ 得 $\mathbf{u}_i=\mathbf{v}_i$ ，故单位矩阵的奇异值分解为 $E=VEV^T$ ， $V$ 是任意正交矩阵。通过这个例子可以得出，矩阵的奇异值分解不唯一，只有当矩阵 $A$ 是方阵且奇异值均不相等时，分解才唯一。同一个奇异值可以对应多个奇异向量，甚至全部，奇异值对应奇异向量的数目称为几何重数。

2、对正交矩阵 $A=Q$ 进行奇异值分解。根据 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 得 $Q^TQ\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 即 $\mathbf{v}_i = \lambda_i\mathbf{v}_i$ ，所以所有特征值 $\lambda_i=1$ 即 $\Sigma = E$ 。任意单位向量 $\mathbf{v}_i$ 均满足方程 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ ，故可取任意正交矩阵 $V$ ，它们均是特征值 $1$ 对应的特征向量。根据 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ 得 $\mathbf{u}_i=Q\mathbf{v}_i$ 即 $U=QV$ ，故正交矩阵的奇异值分解为 $Q=(QV)EV^T$ ， $V$ 是任意正交矩阵。

3、对秩为 $1$ 矩阵 $A=\mathbf{x}\mathbf{y}^T$ 进行奇异值分解，其中 $\mathbf{x},\mathbf{y}$ 是单位向量。根据 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 得 $\mathbf{y}\mathbf{y}^T\mathbf{v}_i = \lambda_i\mathbf{v}_i$ ，当取 $\mathbf{v}_i=\mathbf{y}$ 时有 $\lambda_i=1$ 。由于秩为 $1$ ，故只有 $\lambda_1=1$ ，其它奇异值均为 $0$ 。 $\mathbf{u}_1=A\mathbf{v}_1=\mathbf{x}$ 。故矩阵 $A=\mathbf{x}\mathbf{y}^T$ 的奇异值分解就是 $A=\mathbf{x}\mathbf{y}^T$ 。在 $R^n$ 空间扩充基向量得到正交矩阵 $V$ ，在 $R^m$ 空间扩充基向量得到正交矩阵 $U$ ，则 $A = U\Sigma V^T$ ，其中伪对角阵 $\Sigma_{11}=1，其它元素均为 0$ 。

4、对角阵 $A=D=diag(d_1,\cdots,d_n)$ 进行奇异值分解。根据 $A^TA\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 得 $diag(d^2_1,\cdots,d^2_n)\mathbf{v}_i = \lambda_i\mathbf{v}_i$ 即 $(diag(d^2_1,\cdots,d^2_n)-\lambda_i E)\mathbf{v}_i = diag(d^2_1-\lambda_i,\cdots,d^2_n-\lambda_i)\mathbf{v}_i = ((d^2_1-\lambda_i)v_{i1} ,\cdots,(d^2_n-\lambda_i)v_{in}) = \mathbf{0}$ ，所以 $\lambda_1=d^2_1$ 时 $\mathbf{v}_1=\mathbf{e}_1$ ， $\lambda_i=d^2_i$ 时 $\mathbf{v}_i=\mathbf{e}_i$ 。故正交矩阵 $V=E$ ，奇异值为 $\sigma_i=|d_i|$ ， $\Sigma=|D|$ ，根据 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ 得 $\mathbf{u}_i=D\mathbf{e}_i/|d_i|=sign(d_i)\mathbf{e}_i$ 即 $U=sign(D)E$ ，故对角阵的奇异值分解为 $D=U\Sigma V^T=(sign(D)E)|D|E^T$ 。

## 7.1 奇异值分解SVD和对称矩阵谱分解

7.1 奇异值分解SVD和对称矩阵谱分解

猜你喜欢