主成分分析（PCA）详解

第十一次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。这一篇的部分内容来自于网上资料，以及自己的一些见解。

预备知识：

这一部分首先介绍几何学中的投影长度计算以及线性代数中的协方差、矩阵的特征值与特征向量，最后介绍PCA的数据预处理和伸缩最大化问题。

计算投影长度

　　图中，红色点表示样例 $x_i$ ，蓝色点表示在 $u_i$ 上的投影， $u_i$ 是直线的斜率也是直线的方向向量，而且是单位向量。蓝色点是在 $u_i$ 上的投影点，离原点的距离即为投影长度。即原向量 $x_i$ ，投影方向 $u_i$ ，投影长度为 $x_{i}^{T}u_i$ 。

协方差

　　 $\blacktriangleright$ 协方差计算公式：

　　 $\blacktriangleright$ 协方差矩阵：
　　假设，二维空间上的三个点 $x_1=\left(x_{11},x_{12}\right)$ 、 $x_2=\left(x_{21},x_{22}\right)$ 、 $x_3=\left(x_{31},x_{32}\right)$ ，令 $d_1=\left(x_{11},x_{21},x_{31}\right)$ 、 $d_2=\left(x_{12},x_{22},x_{32}\right)$ ，则由这三个点组成的协方差矩阵可以表示为

[\begin{matrix} c o v (d_{1}, d_{1}) & c o v (d_{1}, d_{2}) \\ c o v (d_{2}, d_{1}) & c o v (d_{2}, d_{2}) \end{matrix}]

$\begin{bmatrix} cov\left(d_1,d_1\right)&cov\left(d_1,d_2\right)\\ cov\left(d_2,d_1\right)&cov\left(d_2,d_2\right)\\ \end{bmatrix}$
　　

▸

$\blacktriangleright$ Python中的协方差计算指令：
numpy.cov（参数rowvar控制行或列作为特征序列）

矩阵特征值与特征向量

　　矩阵A与其转置矩阵的特征值和特征向量相同，具体证明见网上解释。

PCA之数据预处理

　　为了方便计算投影点的方差，在进行PCA前，先将原数据中心化。这样方差就可以通过各点与原点间距离之和来计算。

伸缩比例最大化问题

　　假设，存在矩阵 $A$ ，和向量 $x$ ，那么向量经过矩阵转换后的向量为 $Ax$ 。考虑这样一个问题： $x$ 经过转换后的长度和原长度的比值，即 $\frac{||Ax||_2}{||x||_2}$ 的最大值是什么。令 $AA^T$ 的特征值记为 $\lambda_i$ ，其中 $\lambda_1\geqslant{\lambda_2}\geqslant{...}\geqslant{0}$ ，特征向量为 $\xi_i$ ， $x$ 由特征向量组成的这组基得到，即 $x=\sum_{i=1}^{n}x_i\xi_i$ ，则可以推出以下不等式，

所以， $\frac{||Ax||_2}{||x||_2}\leqslant{\sqrt{\lambda_1}}$ 。

推导过程

这部分首先从问题分析入手，之后会讲到目标函数转换并对目标函数存在最大值进行证明，最后求解目标函数。

问题分析

　　从最大化投影后数据之间的方差这个角度出发，及最大可分性。假设矩阵 $X\in{R^{d\times{m}}}$ 为原矩阵，矩阵 $Z\in{R^{d'\times{m}}}$ 为投影后得到的矩阵，矩阵 $W\in{R^{d\times{d'}}}$ 为投影矩阵。由【1】可知，投影点之间的方差即为各点到原点间的距离，即原向量与投影向量的内积绝对值之和。若令 $w_1$ 为投影的第一主轴方向，则PCA的目标函数可以写做

目标函数转换

　然后，将向量内积进行等价替换，并将绝对值替换为平方值，替换后的等价目标函数如下所示

其中 $\sum_{i=1}^{m}\left(x_i^{T}w_1\right)^2$ 经过如下变化

那么原目标函数变为

其中，

目标函数存在最大值（证明）

　　上面推倒的目标函数式存在最大值的条件是， $w_1^{T}XX^{T}w_1$ 是半正定矩阵的二次型，即 $XX^{T}$ 是半正定的，需要满足以下两个条件：
　　a.对称矩阵：
　　　由 $\left(XX^T\right)^T=\left(X^{T}\right)^{T}X^T=XX^T$ 可知，条件成立。
　　b.所有特征值均不小于0：
　　　假设 $XX^T$ 的特征值为 $\lambda$ ，相应的特征向量为 $\xi$ ，则存在以下递推

　　　由以上各式可知， $\lambda\geqslant{0}$ ，该条件成立。
　　因此，目标函数存在最大值，下面对目标函数进行求解。

求解目标函数（求解）

　　由于 $w_1^{T}XX^{T}w_1=<X^Tw_1,X^Tw_1>=||X^Tw_1||^2_2=\left(\frac{||X^Tw_1||_2}{||w_1||_2}\right)^2$ ，可以将原目标函数转化为求得一个向量 $w_1$ 使得上式得到最大化，转化为伸缩比例问题【5】，进而可以得知，最大值为 $XX^T$ 的最大的特征值，向量 $w_1$ 即为该特征值对应的特征向量。PCA后数据保有的成分比例为 $\frac{\sum_{i=1}^{d'}\lambda_i}{\sum_{i=1}^{d}\lambda_i}$ ， $d'$ 为主成分个数。