任务详解：

这节课主要介绍了矩阵的奇异值分解(SVD分解)，SVD分解的应用，多元线性回归等知识点。
掌握目标：
了解svd分解证明过程，以及svd分解的算法流程

之前的课程描述的是方阵，对称阵的处理，对于一般矩阵是怎么化简的呢，就是下面的SVD分解的内容。
PS：用H或者T都是表示矩阵的转置，一个是复矩阵，一个实矩阵的写法，下面讨论的都是实矩阵，但参考书上针对复矩阵，所以用的H ，这里我们认为两个木有区别。
奇异值分解的证明过程有点复杂，虽然编程序的时候可以做调包侠，但是理解其来龙去脉是很有必要的。

1.矩阵的奇异值分解（SVD分解）

为了论述矩阵的奇异值与奇异值分解，需要下面的结论：
（1）设 $A\in C_r^{m\times n}(r>0)$ ，（这里m和n代表矩阵的行列，r是矩阵的秩）则 $A^HA$ 是Hermite矩阵，（如果矩阵A不包含复数，那么 $A^H=A^T$ ）且其特征值均是非负实数；

这里小小证明一下（本来是上节证明的内容，偷懒没写，现在补上）：
$A^TA$ 写为： $x^TA^TAx=(Ax)^TAx$
这里x是向量，A是矩阵，那么Ax就是一个向量，令 $z=Ax$ ，上面就 $=z^Tz=||z||^2≥0$
因此可以断定 $A^TA$ 是半正定的，他的特征值 $\lambda_i≥0$

（2） $rank(A^HA)=rank(A)$ ；
证明：这里只要证明两者的解空间是一样的即可，因为上节讲解空间的时候有下面的结论
$R(A)+N(A)=n$
解空间N(A)一样，那么秩R(A)也就一样了，也就是要证明
$A^TAx=0$ 和 $Ax=0$ 的解一样，就是x是前者的解也是后者的解。
分两种情况看：
第一种：x=0的时候，肯定是两个方程的解
第二种：对于 $\forall x\neq0$ ，有：
$A^TAx=0$ ，要把 $A^T$ 去掉，不能两边同时乘 $A^T$ 的逆矩阵，因为 $A^T$ 不一定有逆矩阵。所以我们方程两边同时乘 $x^T$ ，得： $x^TA^TAx=0$ ，即 $(Ax)^TAx=0$ ，这里，由于x是向量，A是矩阵，Ax是一个向量 $x^TA^TAx$ 相当于求Ax的模长，模长等于0就意味着向量Ax中的每一项都是0，也就是 $A^TAx=0$ 与 $Ax=0$ 解是一样的（解空间一样），因此秩也就一样。
（3）设 $A\in C_r^{m\times n}$ ，则 $A=0$ 的充要条件是 $A^HA=0$ .

奇异值的定义

定义4.11： $A\in C_r^{m\times n}(r>0)$ ， $A^HA$ 的特征值为 $\lambda_1≥\lambda_2≥…≥\lambda_r>\lambda_{r+1}=…=\lambda_n=0$ 则称 $\sigma_i=\sqrt{\lambda_i}(i=1,2,…,n)$ 为A的奇异值；当A为零矩阵时，它的奇异值都是0。
说人话：根据定义可以得到 $A^HA$ 的特征值有r个是大于0的，其他都是等于0的。于是有下面定理：

---------------------------------------------------------割你没商量------------------------------------------------------
定理4.16：设 $A\in C_r^{m\times n}(r>0)$ ，则存在m阶正交矩阵U和n阶正交矩阵V，使得
$U^HAV=\begin{bmatrix} \Sigma &0 \\ 0 & 0 \end{bmatrix}$
其中 $\Sigma=diag(\sigma_1,\sigma_2,…,\sigma_r)$ ，而。 $\sigma_i(i=1,2,…,r)$ 为矩阵A的全部非零奇异值。注意这里的矩阵shape， $U^H$ 是n×m的，A是m×n，V是n×n， $U^HAV$ 是m×n的。

证明

证明： $A^HA$ (写成 $A^TA$ 是一样的，原因之前有讲，不啰嗦了)是对称阵（ $(A^TA)^T=A^T(A^T)^T=A^TA$ ，就是满足 $A^T=A$ ），所以可以满足对角化的操作（一个对称阵A，可以找到正交方阵P，使得 $P^TAP=对角阵$ ，当然由于P是正交方阵，所以有 $P^T=P^{-1}$ ，故 $P^{-1}AP=对角阵$ 也成立），所以可以有下面的等式（为了和前面的不一样，这里就不用P，用V来表示咯，为什么，因为定理里面用的是V撒，V当然是正交矩阵了，复矩阵就叫酉矩阵）：
$V^H(A^HA)V=\begin{bmatrix} \lambda_1 && \\ &\ddots&\\ &&&\lambda_n \end{bmatrix}=\begin{bmatrix} \Sigma^2 &0 \\ 0 & 0 \end{bmatrix} \tag{1}$
根据奇异值的定理可知，从 $\lambda_1,...,\lambda_n$ 这些个特征值中，有一些个是大于0，一些个是等于0的，即： $\lambda_1≥\lambda_2≥…≥\lambda_r>\lambda_{r+1}=…=\lambda_n=0$ ，上式中的 $\Sigma^2=\begin{bmatrix} \sigma_1^2 && \\ &\ddots&\\ &&&\sigma_r^2 \end{bmatrix}=\begin{bmatrix} \lambda_1 && \\ &\ddots&\\ &&&\lambda_r \end{bmatrix}$
$\Sigma$ 的shape是r*r的。
接下来将n×n的方阵V分两块： $V=[V_1\vdots V_2]$ ，其中 $V_1\in C_r^{n\times r},V_2\in C_r^{n\times (n-r)}$
等式（1）两边同时乘上V，由于V是正交 $VV^H=E$ ，改写为：
$A^HAV=V\begin{bmatrix} \Sigma^2 &0 \\ 0 & 0 \end{bmatrix} \tag{2}$
由于 $V=[V_1\vdots V_2]$ ，等式2可以写为：
$A^HA[V_1\vdots V_2]=[V_1\vdots V_2]\begin{bmatrix} \Sigma^2 &0 \\ 0 & 0 \end{bmatrix}$
两边展开：
$[A^HAV_1\vdots A^HAV_2]=[V_1\Sigma^2\vdots 0]\tag{3}$
等式（3）中 $\vdots$ 两边的东西都应该对应相等，所以有：
$A^HAV_1=V_1\Sigma^2\tag{4}$
$A^HAV_2=0\tag{5}$
等式（4）左右两边分别乘上 $V_1^H$ 得：
$V_1^HA^HAV_1=\Sigma^2\tag{6}$
等式（6）左右两边的左右两边同时乘上 $\Sigma^{-1}$
$\Sigma^{-1}V_1^HA^HAV_1\Sigma^{-1}=\Sigma^{-1}\Sigma^2\Sigma^{-1}\tag{7}$
这里 $\Sigma=\begin{bmatrix} \sigma_1 && \\ &\ddots&\\ &&&\sigma_r \end{bmatrix}$ 是对角阵，所以 $\Sigma^{-1}=\begin{bmatrix} \sigma_1^{-1} && \\ &\ddots&\\ &&&\sigma_r^{-1} \end{bmatrix}$ 也是是对角阵，对角阵的转置和它本身一样（ $A^T=A$ ），所以:
$\Sigma^{-1}=(\Sigma^{-1})^T=(\Sigma^{-1})^H\tag{8}$
根据公式（8），等式（7）可以写为：
$(\Sigma^{-1})^TV_1^HA^HAV_1\Sigma^{-1}=\Sigma^{-1}\Sigma^2\Sigma^{-1}$
把前面几个的转置提取到括号外（位置要变化）， $\Sigma^{-1}\Sigma^2\Sigma^{-1}=E$ ,这里写为 $I_r$ （r是维度），得：
$(AV_1\Sigma^{-1})^T(AV_1\Sigma^{-1})=I_r\tag{9}$
等式（5）左右两边分别乘上 $V_2^H$ 得：
$V_2^HA^HAV_2=0$
$(AV_2)^HAV_2=0\tag{10}$
等式（9）可以看做是一个矩阵( $AV_2$ )的转置乘以矩阵本身等于0的形式。根据开篇的结论三（设 $A\in C_r^{m\times n}$ ，则 $A=0$ 的充要条件是 $A^HA=0$ .）可知：
$AV_2=0\tag{11}$
到这个地方，我们分别得到了两个等式（9）（11）。
对于等式（9），令 $U_1=AV_1\Sigma^{-1}$ ，则有：
$U_1^HU_1=I_r\tag{12}$
再次看shape，A是m×n， $V_1$ 是n×r， $\Sigma^{-1}$ 是r×r的，所以 $U_1$ 是m×r的。如果记 $U_1$ 是由r个向量 $u_1,u_2,...,u_r$ 构成，上式（12）可以写成：
$U_1^HU_1=\begin{bmatrix} u_1^T \\ \vdots\\ u_r^T \end{bmatrix}\begin{bmatrix} u_1&\cdots&u_r \\ \end{bmatrix}=I_r\tag{13}$
等式（13）中的左边展开后的每一项 $u_i^Tu_j$ 满足：
$\left\{\begin{matrix}u_i^Tu_j=1\quad i=j,\\u_i^Tu_j=0\quad i\neq j\end{matrix}\right.$
因此说构成的 $U_1$ 的r个向量是两两正交的单位向量。由于 $U_1$ 的shape是m×r，这r个向量 $u_i\in\real^m$ （说人话：r是m维的列向量），这里可以根据定理，直接把r维向量扩充到m维上。
---------------------------------------------------------割你没商量------------------------------------------------------
定理可视化实例补充：
二维向量 $\begin{bmatrix}1 \\ 0\\0 \end{bmatrix}\begin{bmatrix}0 \\ 1\\0 \end{bmatrix}$ 可以扩充为三维向量： $\begin{bmatrix}1 \\ 0\\0 \end{bmatrix}\begin{bmatrix}0 \\ 1\\0 \end{bmatrix}\begin{bmatrix}0 \\ 0\\1 \end{bmatrix}$
---------------------------------------------------------割你没商量------------------------------------------------------
$U_1$ 扩充为 $C^m$ （说人话：m维）的标准正交基，把后来扩展的向量记为： $u_{r+1},...,u_m$ ，并构造成矩阵： $U_2=(u_{r+1},...,u_m)$ ，则：
$U=[U_1\vdots U_2]=(u_1,u_2,\cdots,u_r,u_{r+1},\cdots,u_m)$
U是m阶酉（正交）矩阵，且有：
$U_1^HU_1=I_r,U_2^HU_1=0\tag{15}$

下面U构造好后，就可以开始验证要证明的定理 $U^HAV$ 啦，因为 $V=[V_1\vdots V_2]$ ：
$U^HAV=U^H[AV_1\vdots AV_2]\tag{14}$
由 $U=[U_1\vdots U_2]$ 可以知道： $U^H=\begin{bmatrix}U_1^H \\ U_2^H \end{bmatrix}$ ；
由 $U_1$ 的设定 $U_1=AV_1\Sigma^{-1}$ ，两边的右边同时乘以 $\Sigma$ ，得 $U_1\Sigma=AV_1$ ；
由等式（11）；
以上三个东西带入等式（14）
$U^HAV=\begin{bmatrix}U_1^H \\ U_2^H \end{bmatrix}[U_1\Sigma\vdots 0]=\begin{bmatrix}U_1^HU_1\Sigma&0 \\ U_2^HU_1\Sigma&0 \end{bmatrix}$
把等式（15）带入
$U^HAV=\begin{bmatrix} \Sigma &0 \\ 0 & 0 \end{bmatrix}$
到这里证明就好了，但是上面的等式还可以在等式的两边左右分别乘以 $U,V^H$ 。
$UU^HAVV^H=U\begin{bmatrix} \Sigma &0 \\ 0 & 0 \end{bmatrix}V^H$
单位阵退散后变成：
$A=U\begin{bmatrix} \Sigma &0 \\ 0 & 0 \end{bmatrix}V^H$

例子

求矩阵 $A=\begin{bmatrix} 1&0&1 \\ 0 & 1& 1 \\ 0 & 0& 0 \end{bmatrix}$ 的奇异值分解。
解： $B=A^TA=\begin{bmatrix} 1&0&1 \\ 0 & 1& 1 \\ 1 & 1& 2 \end{bmatrix}$ 的特征值是 $\lambda_1=3,\lambda_2=1,\lambda_3=0$ ，对应的特征向量依次为：
$\xi_1=\begin{bmatrix}1\\ 1 \\ 2\end{bmatrix},\xi_2=\begin{bmatrix}1\\ -1 \\ 0\end{bmatrix},\xi_1=\begin{bmatrix}1\\ 1 \\ -1\end{bmatrix}$
$\Sigma=\begin{bmatrix} \sqrt{3} &0 \\ 0 &1 \end{bmatrix}$
$A^TA$ 是对称矩阵，因此其特征向量是两两正交的，把上面的三个 $\xi$ 除以模长，得到
$V=\begin{bmatrix} \frac{1}{\sqrt{6}}&\frac{1}{\sqrt{2}}&\frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{6}} & -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{3}}\\ \frac{2}{\sqrt{6}} & 0& -\frac{1}{\sqrt{3}} \end{bmatrix}$
根据公式 $U_1=AV_1\Sigma^{-1}$ 计算 $U_1$ ，其中A在题目已经给了， $V=[V_1\vdots V_2]$ ，其中 $V_1\in C_r^{n\times r},V_2\in C_r^{n\times (n-r)}$ ，由于R(A)=2，所以r=2，取V的前面两列， $V_1=\begin{bmatrix} \frac{1}{\sqrt{6}}&\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{6}} & -\frac{1}{\sqrt{2}}\\ \frac{2}{\sqrt{6}} & 0 \end{bmatrix}$ ， $\Sigma^{-1}=\begin{bmatrix} \frac{1}{\sqrt{3}} &0 \\ 0 &1 \end{bmatrix}$ ，最后算出来：
$U_1=AV_1\Sigma^{-1}=\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} &-\frac{1}{\sqrt{2}}\\ 0&0 \end{bmatrix}$
这里只构造出 $U_1$ ，还要弄 $U_2$ ，使得 $U=[U_1\vdots U_2]$
取 $U_2=\begin{bmatrix}0\\ 0 \\ 1\end{bmatrix}$
$U=[U_1\vdots U_2]=\begin{bmatrix} \frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}&0 \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}}&0\\ 0& 0& 1 \end{bmatrix}$
则A的奇异值分解为：
$A=U\begin{bmatrix} \sqrt{3}&0&0 \\ 0 & 1&0\\ 0& 0& 0 \end{bmatrix}V^T$

oldmao_2001

发布了140 篇原创文章 · 获赞 35 · 访问量 1万+

私信关注

线代：1.8SVD分解的证明

文章目录

任务详解：

1.矩阵的奇异值分解（SVD分解）

奇异值的定义

证明

例子

猜你喜欢