【机器学习】降维方法(一)----主成分分析(PCA)

发现其实还有很多知识点还未整理和掌握，包括降维、模型评估、特征选择、稀疏学习、聚类算法等。在实践中穿插着整理和学习吧。先从降维方法开始。

线性降维

欲获得低维子空间，最简单的方法就是对原始高维空间进行线性变换。
给定样本 $X\in\Bbb R^{n\times m}$ ，即有 $m$ 个数据样本，每个样本有 $n$ 个特征( $n$ 维)，记为 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)}),i=1,2,...,m$ ，线性变换 $Z=W^TX$ 之后得到 $k$ 维空间中的样本 $Z\in\Bbb R^{k\times m}$ ， $W^T\in\Bbb R^{k\times n}$ 是变换矩阵，也被称为基，可以看做有 $k$ 个 $n$ 维的基向量，即 $W=(w_1,w_2,...,w_k)\in\Bbb R^{k\times n}$
其中 $w_l$ ( $l$ 取 $1,2,...,k$ )是基向量，可表示为：

w_{l} = [\begin{matrix} w_{l_{1}} \\ w_{l_{2}} \\ ⋮ \\ w_{l_{n}} \end{matrix}]

$w_l=\begin{bmatrix} w_{l_1} \\ w_{l_2} \\ \vdots \\ w_{l_n} \\ \end{bmatrix}$
样本

X

$X$ 在

k

$k$ 维坐标系的投影是：

Z = W^{T} X

$Z=W^TX$

Z = W^{T} X = (\begin{matrix} w_{1}^{T} \\ w_{2}^{T} \\ ⋮ \\ w_{k}^{T} \end{matrix}) (\begin{matrix} x_{1}, x_{2}, . . ., x_{m} \end{matrix})

$Z=W^TX=\begin{pmatrix} w_1^T \\ w_2^T \\ \vdots \\ w_k^T\\ \end{pmatrix}\begin{pmatrix} x_1,x_2,...,x_m \\ \end{pmatrix}$

= (\begin{matrix} w_{1}^{T} x_{1}, w_{1}^{T} x_{2}, . . ., w_{1}^{T} x_{m} \\ w_{2}^{T} x_{1}, w_{2}^{T} x_{2}, . . ., w_{2}^{T} x_{m} \\ ⋮ \\ w_{k}^{T} x_{1}, w_{k}^{T} x_{2}, . . ., w_{k}^{T} x_{m} \end{matrix}) = (\begin{matrix} z_{1}^{(1)}, z_{2}^{(1)}, . . ., z_{m}^{(1)} \\ z_{1}^{(2)}, z_{2}^{(2)}, . . ., z_{m}^{(2)} \\ ⋮ \\ z_{1}^{(k)}, z_{2}^{(k)}, . . ., z_{m}^{(k)} \end{matrix})

$=\begin{pmatrix} w_1^Tx_1,w_1^Tx_2,...,w_1^Tx_m \\ w_2^Tx_1,w_2^Tx_2,...,w_2^Tx_m \\ \vdots \\ w_k^Tx_1,w_k^Tx_2,...,w_k^Tx_m\\ \end{pmatrix}=\begin{pmatrix} z_1^{(1)},z_2^{(1)},...,z_m^{(1)} \\ z_1^{(2)},z_2^{(2)},...,z_m^{(2)} \\ \vdots \\ z_1^{(k)},z_2^{(k)},...,z_m^{(k)}\\ \end{pmatrix}$
我们可以看出

z_{i}^{(j)} = w_{j}^{T} x_{i} ， z_{i} = W^{T} x_{i} = (\begin{matrix} w_{1}^{T} \\ w_{2}^{T} \\ ⋮ \\ w_{k}^{T} \end{matrix}) x_{i} = (\begin{matrix} z_{i}^{(1)} \\ z_{i}^{(2)} \\ ⋮ \\ z_{i}^{(k)} \end{matrix})

$z_i^{(j)}=w_j^Tx_i，z_i=W^Tx_i=\begin{pmatrix} w_1^T \\ w_2^T \\ \vdots \\ w_k^T\\ \end{pmatrix}x_i=\begin{pmatrix} z_i^{(1)} \\ z_i^{(2)} \\ \vdots \\ z_i^{(k)}\\ \end{pmatrix}$
用

z_{i}

$z_i$ 恢复

x_{i}

$x_i$ 得到恢复数据

{\hat{x}}_{i} = \sum_{j = 1}^{k} z_{i}^{(j)} w_{j} = W z_{i}

$\hat x_i=\sum\limits_{j=1}^kz_i^{(j)}w_j=Wz_i$ 。
我们可以发现样本X的特征维数由

x_{i}

$x_i$ 的

n

$n$ 维变为

{\hat{x}}_{i}

$\hat x_i$ 的

k

$k$ 维

主成分分析(PCA)

主成分分析(Principal Component Analysis,简称PCA)，是最常用的一种降维方法。其主要思路可以从两个方向来理解。
第一、最近重构性，即样本点到投影的超平面的距离都越小越好；
第二、最大可分性，即样本点在这个超平面上的投影尽可能分开。
因此优化思路即为最小化投影距离或者最大化投影方差。

假设数据样本都已进行了中心化，即 $\sum\limits_{i=1}^mx_i=0$ ；再假定投影变换后得到的新坐标系 $\{w_1,w_2,...,w_k\}$ ，假设其中任选两个基向量 $w_l$ 和 $w_m$ 都是正交的( $l\neq m$ )，也就是 $w_l^Tw_m=0$ ，则 $W$ 是正交基， $w_l$ 为标准正交基向量( $l$ 取 $1,2,...,k$ )， $||w_l||_2=w_l^Tw_l=1$ 。
$\hat x_i=\sum\limits_{j=1}^kz_i^{(j)}w_j=Wz_i$ ， $z_i=W^Tx_i$ 。

最近重构性(最小化投影距离)

现在考虑整个训练数据集，原样本点 $x_i$ 与基于投影重构的样本点 $\hat x_i$ 之间的距离为：
$\sum\limits_{i=1}^m||\hat x_i-x_i||^2=\sum\limits_{i=1}^m||\sum\limits_{j=1}^kz_i^{(j)}w_j-x_i||^2=\sum\limits_{i=1}^m[(Wz_i)^T(Wz_i)-2(Wz_i)^Tx_i+x_i^2]=\sum\limits_{i=1}^m(z_i^TW^TWz_i-2z_i^TW^Tx_i+x_i^2)=\sum\limits_{i=1}^m(z_i^Tz_i-2z_i^Tz_i+x_i^2)=\sum\limits_{i=1}^m(-z_i^Tz_i+x_i^2)=-tr(W^T(\sum\limits_{i=1}^mx_i^2)W)+\sum\limits_{i=1}^mx_i^2$
tr指的是矩阵的迹，即主对角线上各个元素总和，因为 $\sum\limits_{i=1}^mx_i^2=XX^T$ ，所以 $-tr(W^T(\sum\limits_{i=1}^mx_i^2)W)=-tr(W^TXX^TW)$
$\color{red}{我们为了让这个距离最小，应调整基w使得-tr(w^TXX^Tw)最小}$
$\color{orange}{优化问题可以写为：}$
$\color{orange}{\min\limits_{w} -tr(W^TXX^TW)}$
$\color{orange}{s.t.　W^TW=I}$ 　　 $\color{red}{I为单位矩阵}$

最大可分性(最大化投影方差)

换一个角度来考虑，我们也可以通过使所有样本点的投影尽可能分开来找到最好的 $W$ 。若所有样本点的投影能尽可能分开，则应该使投影后样本点的方差最大化。
$XX^T\sum\limits_{i=1}^mx_ix_i^T$ 是个协方差矩阵，一个对称的矩阵，而且对角线是各个维度上的方差。因此投影后样本点的方差为 $\sum\limits_{i=1}^mW^Tx_ix_i^TW=tr(W^TXX^TW)$
$\color{orange}{因此优化问题可以写为：}$
$\color{orange}{\max\limits_{w} 　tr(W^TXX^TW)}$
$\color{orange}{s.t.　W^TW=I}$

和上面最近重构性思路的优化问题等价。
使用拉格朗日乘子法可得 $XX^Tw_i=λ_iw_i$ ，对协方差矩阵 $XX^T$ 进行特征值分解，将求得的特征值排序： $λ_1\geλ_2\ge...\geλ_n$ ，取前 $k$ 个特征值对应的特征向量构成 $W^*=(w_1,w_2,...,w_k)$ ，这就是主成分分析的解。

算法描述

输入:样本集 $D=\{x_1,x_2,...,x_m\}；$ 低维空间维数 $k$ .
输出:降维后样本集 $D'$
过程:
①对所有样本进行中心化: $x_i-\frac{1}{m}\sum\limits_{i=1}^mx_i\to x_i$ ；
②计算样本的协方差矩阵 $XX^T$ ；
③对协方差矩阵 $XX^T$ 做特征值分解；
④取最大的 $k$ 个特征值所对应的特征向量构成 $W=(w_1,w_2,...,w_k)$
⑤对样本集 $D$ 中每个样本的投影 $z_i=W^Tx_i$
⑥输出样本 $D'=(z_1,z_2,...,z_m)$

样本的协方差矩阵 $XX^T$ ：
$cov(x^{(k)},x^{(t)})=\frac{\sum\limits_{i=1}^m(x_i^{(k)}-\bar x^{(k)})(x_i^{(t)}-\bar x^{(t)})}{m-1}$ ， $k,t$ 取 $1,2,..,n$
若是样本是经过中心化过后的样本，则 $\bar x^{(k)}=0$ ， $k$ 取 $1,2,..,n$
式子变为： $cov(x^{(k)},x^{(t)})=\frac{\sum\limits_{i=1}^mx_i^{(k)}x_i^{(t)}}{m-1}$

协方差矩阵(样本为 $n$ 维)写作：

(\begin{matrix} c o v (x^{(1)}, x^{(1)}) c o v (x^{(1)}, x^{(2)}) . . . c o v (x^{(1)}, x^{(n)}) \\ c o v (x^{(2)}, x^{(1)}) c o v (x^{(2)}, x^{(2)}) . . . c o v (x^{(2)}, x^{(n)}) \\ ⋮ \\ c o v (x^{(n)}, x^{(1)}) c o v (x^{(n)}, x^{(2)}) . . . c o v (x^{(n)}, x^{(n)}) \end{matrix})

$\begin{pmatrix} cov(x^{(1)},x^{(1)})　cov(x^{(1)},x^{(2)})...cov(x^{(1)},x^{(n)}) \\ cov(x^{(2)},x^{(1)})　cov(x^{(2)},x^{(2)})...cov(x^{(2)},x^{(n)}) \\ \vdots \\ cov(x^{(n)},x^{(1)})　cov(x^{(n)},x^{(2)})...cov(x^{(n)},x^{(n)})\\ \end{pmatrix}$

低维空间维数 $k$ ：
一般低维空间维数 $k$ 由用户事先指定，也可以通过在 $k$ 值不同的低维空间对开销较小的学习器进行交叉验证来选取较好的 $k$ 值。从重构的角度还可以设置一个重构阈值，例如 $t=95\%$ ，然后选取使下式成立的最小 $k$ 值： $\frac{\sum\limits_{i=1}^kλ_i}{\sum\limits_{i=1}^nλ_i}\ge t$

PCA优缺点

PCA算法的主要优点有：
1.仅仅需要以方差衡量信息量，不受数据集以外的因素影响。　
2.各主成分之间正交，可消除原始数据成分间的相互影响的因素。
3.计算方法简单，主要运算是特征值分解，易于实现。

PCA算法的主要缺点有：
1.主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。
2.方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。

PCA算法可用于高维数据可视化。因为一个高维数据集是无法用图形表示的，所以我们可以通过PCA降维方法把它降成二维或三维数据来可视化。

参考：
1. http://www.cnblogs.com/pinard/p/6239403.html
2.《机器学习》