浅谈PCA

最近在回顾PCA方面的知识，发现对于之前的很多东西有了新的理解，下面和大家分享下我的一些个人的理解

1.我们为什么要用PCA，它能解决我什么问题？

　　PCA（Principal Component Analysis），主成成分分析，常用于高维数据的降维。在企业级环境中，最终用于模型训练的数据集往往维度很高，占用内存空间更大。PCA的出现，能保证尽量保留数据更完整信息的同时，将数据降低到更低的维度，这样不仅占用内存空间更小，模型训练速度也明显加快！（这里的模型训练的速度的加快是降维之前训练所用的时间对比降维所用的时间 + 降维之后训练所用的时间）

2.PCA的理论分析

　　PCA的目标:

　　　　　　　　2.1：将原始数据集通过降维的方式，在新的坐标系下表示，新的坐标系的维度远低于原始维度。

　　　　　　　　2.2：在新的坐标系下的表示应尽量保留相对完整的信息。

　　对于2.2我们知道，完整的信息指的是数据间的差异。例如我们在做模型训练的时候，往往希望训练数据的分布是涵盖了所有的情况一样。我们用方差来衡量数据间的离散程度，这也是新坐标下的衡量指标，我们要找到这样的一组坐标系，使得原始数据在新坐标系下的方差最大。

3.准备工作

　　进行降维之前，让我们来做些准备工作。首先对数据进行0均值归一化，之后再做标准化处理。使得所有数据在同一量纲。

4.数学推导