奇异值分解（Singular Value Decomposition，SVD）是一种矩阵分解（Matrix Decomposition）的方法。除此之外，矩阵分解还有很多方法，例如特征分解（Eigendecomposition）、LU分解（LU decomposition）、QR分解（QR decomposition）和极分解（Polar decomposition）等。这篇文章主要说下奇异值分解，这个方法在机器学习的一些算法里占有重要地位。

定义

下面引用 SVD 在维基百科中的定义。

In linear algebra, the singular value decomposition (SVD) is a factorization of a real or complex matrix. It is the generalization of the eigendecomposition of a positive semidefinite normal matrix (for example, a symmetric matrix with positive eigenvalues) to any $m\times n$ matrix via an extension of polar decomposition.

也就是说 SVD 是线代中对于实数矩阵和复数矩阵的分解，将特征分解从 半正定矩阵 推广到任意 $m\times n$ 矩阵。

注意：本篇文章内如未作说明矩阵均指实数矩阵。

假设有 $m\times n$ 的矩阵 $A$ ，那么 SVD 就是要找到如下式的这么一个分解，将 $A$ 分解为 3 个矩阵的乘积：

A m \times n = U m \times m Σ m \times n V T n \times n

$A_{m \times n} = U_{m \times m}\Sigma_{m \times n} V^T_{n \times n}$

其中， $U$ 和 $V$ 都是正交矩阵 （Orthogonal Matrix），在复数域内的话就是酉矩阵（Unitary Matrix），即

U T U = E m \times m

$U^TU = E_{m \times m}$

V T V = E n \times n

$V^TV=E_{n \times n}$

换句话说，就是说 $U$ 的转置等于 $U$ 的逆， $V$ 的转置等于 $V$ 的逆：

U T = U - 1

$U^T = U^{-1}$

V T = V - 1

$V^T = V^{-1}$

而 $\Sigma$ 就是一个非负实对角矩阵。

那么 $U$ 和 $V$ 以及 $\Sigma$ 是如何构成的呢？

求解

$U$ 和 $V$ 的列分别叫做 $A$ 的 左奇异向量（left-singular vectors）和 右奇异向量（right-singular vectors）， $\Sigma$ 的对角线上的值叫做 $A$ 的奇异值（singular values）。

其实整个求解 SVD 的过程就是求解这 3 个矩阵的过程，而求解这 3 个矩阵的过程就是求解特征值和特征向量的过程，问题就在于 求谁的特征值和特征向量。

$U$ 的列由 $AA^T$ 的单位化过的特征向量构成
$V$ 的列由 $A^TA$ 的单位化过的特征向量构成
$\Sigma$ 的对角元素来源于 $AA^T$ 或 $A^TA$ 的特征值的平方根，并且是按从大到小的顺序排列的

知道了这些，那么求解 SVD 的步骤就显而易见了：

求 $AA^T$ 的特征值和特征向量，用单位化的特征向量构成 $U$
求 $A^TA$ 的特征值和特征向量，用单位化的特征向量构成 $V$
将 $AA^T$ 或者 $A^TA$ 的特征值求平方根，然后构成 $\Sigma$

举例

假设

A = ⎛ ⎝ ⎜ ⎜ ⎜ 21004300 ⎞ ⎠ ⎟ ⎟ ⎟

$A = \begin{pmatrix} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix}$

那么可以计算得到

A A T = ⎛ ⎝ ⎜ ⎜ ⎜ 20140014100000000000 ⎞ ⎠ ⎟ ⎟ ⎟

$AA^T = \begin{pmatrix} 20 & 14 & 0 & 0 \\ 14 & 10 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ \end{pmatrix}$

接下来就是求这个矩阵的特征值和特征向量了

A A T x = λ x

$AA^T x = \lambda x$

(A A T - λ E) x = 0

$(AA^T - \lambda E)x = 0$

要想该方程组有非零解（即非零特征值），那么系数矩阵 $AA^T - \lambda E$ 的行列式必须为 0

∣ ∣ ∣ ∣ ∣ ∣ 20 - λ 1400 14 10 - λ 00 00 - λ 0 000 - λ ∣ ∣ ∣ ∣ ∣ ∣ = 0

$\begin{vmatrix} 20-\lambda & 14 & 0 & 0 \\ 14 & 10-\lambda & 0 & 0 \\ 0 & 0 & -\lambda & 0 \\ 0 & 0 & 0 & -\lambda \\ \end{vmatrix} = 0$

求解这个行列式我就不再赘述了，这个直接使用行列式展开定理就可以了，可以得到 $\lambda_1 \approx 29.86606875，\lambda_2 \approx 0.13393125，\lambda_3 = \lambda_4 = 0$ ，有 4 个特征值，因为特征多项式 $\vert AA^T - \lambda E \vert$ 是一个 4 次多项式。对应的单位化过的特征向量为

⎛ ⎝ ⎜ ⎜ ⎜ 0.81741556 0.57604844 00 - 0.57604844 0.81741556 00 00100001 ⎞ ⎠ ⎟ ⎟ ⎟

$\begin{pmatrix} 0.81741556 & -0.57604844 & 0 & 0 \\ 0.57604844 & 0.81741556 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ \end{pmatrix}$

这就是矩阵 $U$ 了。

同样的过程求解 $A^TA$ 的特征值和特征向量，求得 $\lambda_1 \approx 0.13393125，\lambda_2 \approx 29.86606875$ ，将特征值降序排列后对应的单位化过的特征向量为

(0.40455358 0.9145143 - 0.9145143 0.40455358)

$\begin{pmatrix} 0.40455358 & -0.9145143 \\ 0.9145143 & 0.40455358 \\ \end{pmatrix}$

这就是矩阵 $V$ 了。

而矩阵 $\Sigma$ 根据上面说的为特征值的平方根构成的对角矩阵

⎛ ⎝ ⎜ ⎜ ⎜ 5.4649857 000 0 0.36596619 00 ⎞ ⎠ ⎟ ⎟ ⎟

$\begin{pmatrix} 5.4649857 & 0 \\ 0 & 0.36596619 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix}$

到此，SVD 分解就结束了，原来的矩阵 $A$ 就被分解成了 3 个矩阵的乘积。

A 4 \times 2 = U 4 \times 4 Σ 4 \times 2 V T 2 \times 2

$A_{4 \times 2} = U_{4 \times 4}\Sigma_{4 \times 2} V^T_{2 \times 2}$

⎛ ⎝ ⎜ ⎜ ⎜ 21004300 ⎞ ⎠ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ 0.81741556 0.57604844 00 - 0.57604844 0.81741556 00 00100001 ⎞ ⎠ ⎟ ⎟ ⎟ ⎛ ⎝ ⎜ ⎜ ⎜ 5.4649857 000 0 0.36596619 00 ⎞ ⎠ ⎟ ⎟ ⎟ (0.40455358 0.9145143 - 0.9145143 0.40455358) T

$\begin{pmatrix} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix} = \begin{pmatrix} 0.81741556 & -0.57604844 & 0 & 0 \\ 0.57604844 & 0.81741556 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ \end{pmatrix} \begin{pmatrix} 5.4649857 & 0 \\ 0 & 0.36596619 \\ 0 & 0 \\ 0 & 0 \\ \end{pmatrix} \begin{pmatrix} 0.40455358 & -0.9145143 \\ 0.9145143 & 0.40455358 \\ \end{pmatrix} ^ T$

Numpy 实现

Python 中可以使用 numpy 包的 linalg.svd() 来求解 SVD。

import numpy as np

A = np.array([[2, 4], [1, 3], [0, 0], [0, 0]])
print(np.linalg.svd(A))

输出

(array([[-0.81741556, -0.57604844,  0.        ,  0.        ],
        [-0.57604844,  0.81741556,  0.        ,  0.        ],
        [ 0.        ,  0.        ,  1.        ,  0.        ],
        [ 0.        ,  0.        ,  0.        ,  1.        ]]),
 array([ 5.4649857 ,  0.36596619]),
 array([[-0.40455358, -0.9145143 ],
        [-0.9145143 ,  0.40455358]]))

奇异值分解 SVD 的数学解释

相关概念

定义

求解

举例

Numpy 实现

END

猜你喜欢