在SVD的基础上，深入理解PCA。

本文涉及到仿射变换、SVD等多个概念，可以先看参考文献，本文作为复习理解之用。

基本思想

降维是机器学习中很常见的一种思维方式，一般来说，可以通过线性投影和非线性映射进行。

PCA是一种简单的线性映射，当考虑降维时，我们一般有两种思路：

找到d-维仿射变换子空间，在合适的投影下，新的投影点与原先的投影点就接近。也就是说，在新投影下能最大限度的保持原数据的特征。
找到d-位投影，尽可能多的保留数据的变动（方差）。

我们将会从这两个思路分别进行求解，可以看到，这两个目标实际上等价。

定义

首先定义一些常用的量

样本均值

μ_{n} = \frac{1}{n} \sum_{n = 1}^{n} x_{i}

$\mu_n = \frac{1}{n}\sum\limits_{n = 1}^{n}x_i$

样本协方差

\sum_{n} = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - μ_{i}) (x_{i} - μ_{i})^{T}

$\sum_n = \frac{1}{n-1}\sum\limits_{i=1}^{n}(x_i - \mu_i)(x_i - \mu_i)^T$

其中 $x_i$ 为数据样本（列向量），因此可以得到 $X = (x_1,...,x_n)$ 为 $p\times n$ 矩阵，因此，写成矩阵的形式为

\sum_{n} = \frac{1}{n - 1} (X - μ_{n} 1) (X - μ 1)^{T}

$\sum_n = \frac{1}{n-1}(X - \mu_n1)(X - \mu1)^T$

直观理解

首先，让我们用不是很严格的数学公式来直观理解PCA。

我们很常见的思想是使得协方差矩阵的方差尽可能大（保留更多有效信息），而让协方差尽可能的小（防止数据冗余），在协方差矩阵中则表现为对角矩阵 $D$ 。

我们令经过d-维基 $V$ 变换后的新坐标为 $y$ ，因此可得：

\begin{aligned} (1) & D & = y y^{T} \\ (2) & = V x (V x)^{T} \\ (3) & = V x x^{T} V^{T} \\ (4) & = V \sum_{n} V^{T} \end{aligned}

$\begin{align} D &= yy^T \\& =Vx(Vx)^T\\& = Vxx^TV^T \\&= V\sum_nV^T\end{align}$

这个式子有着特殊的含义。其中， $D$ 是新的协方差矩阵（对角矩阵），而 $\sum_n$ 则是原始数据的协方差矩阵， $V$ 则是d-维正交基。

因此，这个式子可以理解为：对协方差矩阵 $\sum_n$ ，找一个 $V$ ，使得其转变为对角矩阵。而协方差矩阵是实对称矩阵，一定能够对角化，证明了这一点的完备性。

因此，我们只需要对协方差矩阵进行对角化，然后求出其对应的特征向量，即为新坐标下的正交基 $V$ 。对 $y = Vx$ 进行坐标变换则求到了新坐标下的PCA坐标。

PCA是最佳的仿射变换拟合

我们要对每个近似 $x_i$ 近似（由仿射变换的定义）：

x_{i} \approx μ + \sum_{j = 1}^{d} β_{i}^{j} v_{j}

$x_i \approx \mu + \sum\limits_{j= 1}^{d} \beta_i^jv_j$

其中， $V_{p\times d} = (v_1,..,v_d)$ 为d-维子空间中的标准正交基， $\mu \in R^p$ 是平移量， $\beta_j$ 为在基 $v_j$ 下的系数， $\beta_j^i$ 为 $\beta_j$ 的第 $i$ 个分量那么上式可以写成：

x_{i} = μ + V β_{i}

$x_i = \mu + V\beta_i$

由于其中的 $V$ 由标准正交基组成，因此 $V^TV = 1$ .

用平方误差来衡量拟合效果，即要求出：

min_{μ, V, β_{i} . V^{T} V = 1} \sum_{i = 1}^{n} | | x_{i} - (μ + V β_{i}) | |^{2}

$\min\limits_{\mu,V,\beta_i.V^TV=1} \sum\limits_{i=1}^n||x_i - (\mu + V\beta_i)||^2$

求 $\mu$ 的最优值

首先对 $\mu$ 求偏导，可以得到：

\sum_{i = 1}^{n} (x_{i} - (μ + V β_{i})) = 0 \Rightarrow (\sum_{i = 1}^{n} x_{i}) - n μ - V (\sum_{i = 1}^{n} β_{i}) = 0

$\sum_{i=1}^n(x_i - (\mu + V\beta_i)) = 0 \Rightarrow (\sum_{i=1}^n x_i) - n\mu - V(\sum_{i=1}^n \beta_i) = 0$

由于 $\mu$ 和 $\beta$ 之间没有关系，不失一般性我们可以假设 $\sum \beta_i = 0$ ，因此可以解出：

μ^{*} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} = μ_{n}

$\mu^* = \frac{1}{n}\sum_{i=1}^{n}x_i = \mu_n$

因此， $\mu$ 的最优值就是样本均值 $\mu^*$ 。

这样，我们可以将原始式子化简为：

min_{μ, V, β_{i} . V^{T} V = 1} \sum_{i = 1}^{n} | | x_{i} - (μ_{n} + V β_{i}) | |^{2}

$\min\limits_{\mu,V,\beta_i.V^TV=1} \sum\limits_{i=1}^n||x_i - (\mu_n + V\beta_i)||^2$

求 $\beta_i$ 的最优值

注意到， $\beta_i$ 之间是无耦合的影响的最小值，因此，对于原始式子，可以分别解出 $\beta_i$ ：

min_{β_{i}} | | x_{i} - μ_{n} - V β_{i} | |^{2} = min_{β_{i}} | | x_{i} - μ_{n} - \sum_{j = 1}^{d} β_{i}^{j} v_{j} | |^{2}

$\min\limits_{\beta_i}||x_i - \mu_n - V\beta_i||^2 = \min\limits_{\beta_i}||x_i - \mu_n - \sum\limits_{j=1}^d\beta_i^jv_j||^2$

由于 $V$ 是标准正交基，对 $\beta_i$ 求偏导：

β_{i}^{j} = v_{j}^{T} (x_{i} - μ_{n}) \Rightarrow β_{i} = V^{T} (x_{i} - μ_{n})

$\beta_i^j = v_j^T(x_i - \mu_n)\Rightarrow \beta_i = V^T(x_i - \mu _n)$

因此式子可以化简为：

min_{V^{T} V = 1} \sum_{i = 1}^{n} | | (x_{i} - μ_{n}) - V V^{T} (x_{i} - μ_{n}) | |^{2}

$\min\limits_{V^TV = 1} \sum\limits_{i= 1 } ^n ||(x_i - \mu_n) - VV^T(x_i - \mu_n)||^2$

求 $V$ 的最优值

由 $||x||^2 = <x,x>$ 和 $V^TV = 1$ ，可以得到：

\begin{aligned} (5) & | | (x_{i} - μ_{n}) - V V^{T} (x_{i} - μ_{n}) | |^{2} & = [(x_{i} - μ_{n}) - V V^{T} (x_{i} - μ_{n})]^{T} [(x_{i} - μ_{n}) - V V^{T} (x_{i} - μ_{n})] \\ (6) & = (x_{i} - μ_{n})^{T} (x_{i} - μ_{n}) - (x_{i} - μ_{n})^{T} V V^{T} (x_{i} - μ_{n}) - (x_{i} - μ_{n})^{T} V V^{T} (x_{i} - μ_{n}) + (x_{i} - μ_{n})^{T} V V^{T} V V^{T} (x_{i} - μ_{n}) \\ (7) & = 2 (x_{i} - μ_{n})^{T} (x_{i} - μ_{n}) - 2 (x_{i} - μ_{n})^{T} V V^{T} (x_{i} - μ_{n}) \end{aligned}

$\begin{align}||(x_i - \mu_n) - VV^T(x_i - \mu_n)||^2 & =[(x_i - \mu_n) - VV^T(x_i - \mu_n)]^T[(x_i - \mu_n) - VV^T(x_i - \mu_n) ]\\&= (x_i - \mu_n)^T(x_i - \mu_n) - (x_i - \mu_n)^TVV^T(x_i - \mu_n) - (x_i - \mu_n)^TVV^T(x_i - \mu_n) + (x_i -\mu_n)^TVV^TVV^T(x_i - \mu_n) \\&= 2(x_i - \mu_n)^T(x_i - \mu_n)-2(x_i - \mu_n)^TVV^T(x_i - \mu_n) \end{align}$

由于 $(x_i - \mu_n)^T(x_i - \mu_n)与$ V$无关，因此等价于求：

max_{V^{T} V = 1} \sum_{i = 1}^{n} (x_{i} - μ_{n})^{T} V V^{T} (x_{i} - μ_{n})

$\max\limits _{V^TV=1}\sum\limits_{i=1}^n (x_i - \mu_n)^TVV^T(x_i - \mu_n)$

由矩阵的迹的性质可得：

y^{T} y = T r (y y^{T})

$y^Ty = Tr(yy^T)$

化简原式可得：

\sum_{i = 1}^{n} (x_{i} - μ_{n})^{T} V V^{T} (x_{i} - μ_{n}) = \sum_{i = 1}^{n} [V^{T} (x_{i} - μ_{n})]^{T} [V^{T} (x_{i} - μ_{n})]

$\sum\limits_{i=1}^n (x_i - \mu_n)^TVV^T(x_i - \mu_n) = \sum\limits_{i=1}^n [V^T(x_i - \mu_n)]^T[V^T(x_i - \mu_n)]$

因此，将原始化简的式子等价于求：

max_{V^{T} V = 1} \sum_{i = 1}^{n} (x_{i} - μ_{n})^{T} V V^{T} (x_{i} - μ_{n}) = max_{V^{T} V = 1} (n - 1) T r (V^{T} \sum_{n} V)

$\max\limits _{V^TV=1}\sum\limits_{i=1}^n (x_i - \mu_n)^TVV^T(x_i - \mu_n) =\max\limits _{V^TV=1} (n-1)Tr(V^T\sum_nV)$

即：

max_{V^{T} V = 1} T r (V^{T} \sum_{n} V)

$\max\limits _{V^TV=1} Tr(V^T\sum_nV)$

即，我们最后要求的标准正交基为使得协方差矩阵的迹最大；这等价于求协方差矩阵的特征值，并按照从大到小排列。

PCA保留最大方差

我们的第二个目标是要保留数据最大变化的d-维投影。可以写出全方差为：

T o t a l V a r i a n c e (X_{n}) = \frac{1}{n} \sum | | x_{i} - μ_{n} | |^{2} = \frac{1}{n} \sum_{i = 1}^{n} | | x_{i} - \frac{1}{n} \sum_{i = 1}^{n} x_{i} | |^{2}

$Total Variance (X_n) = \frac{1}{n} \sum\limits||x_i- \mu_n||^2 = \frac {1}{n} \sum\limits_{i=1}^n||x_i - \frac{1}{n}\sum\limits_{i=1}^n x_i||^2$

因此，我们要向最大化投影以后的方差，即 $V^Tx_i$ 的方差：

max_{V^{T} V = 1} \sum_{i = 1}^{n} | | V^{T} x_{i} - \frac{1}{n} \sum_{i = 1}^{n} V^{T} x_{i} | |^{2}

$\max\limits _{V^TV=1}\sum\limits_{i=1}^n ||V^Tx_i - \frac{1}{n}\sum\limits_{i=1}^n V^Tx_i||^2$

根据之前的结论：

\sum_{i = 1}^{n} | | V^{T} x_{i} - \frac{1}{n} \sum_{i = 1}^{n} V^{T} x_{i} | |^{2} = \sum_{i = 1}^{n} | | V^{T} (x_{i} - μ_{n}) | |^{2} = (n - 1) T r (V^{T} \sum_{n} V)

$\sum\limits_{i=1}^n ||V^Tx_i - \frac{1}{n}\sum\limits_{i=1}^n V^Tx_i||^2 =\sum\limits_{i=1}^n ||V^T(x_i - \mu_n)||^2= (n-1)Tr(V^T\sum_nV)$

表明主成分 $V$ 可以通过下式解决：

max_{V^{T} V = 1} T r (V^{T} \sum_{n} V)

$\max\limits_{V^TV = 1}Tr(V^T\sum_nV)$

这样，两种不同的度量方法就等价求协方差矩阵的前 $d$ 个特征值。

线性代数笔记16：理解PCA

基本思想

定义

样本均值

样本协方差

直观理解

PCA是最佳的仿射变换拟合

求 $\mu$ 的最优值

求 $\beta_i$ 的最优值

求 $V$ 的最优值

PCA保留最大方差

参考资料

猜你喜欢

线性代数笔记16：理解PCA

基本思想

定义

样本均值

样本协方差

直观理解

PCA是最佳的仿射变换拟合

求 μ μ \mu的最优值

求 βi β i \beta_i的最优值

求 V V V的最优值

PCA保留最大方差

参考资料

猜你喜欢

求 $\mu$ 的最优值

求 $\beta_i$ 的最优值

求 $V$ 的最优值