《
数据清洗和特征选择→PCA→3.白化???》
- 白化的要求
- 特征之间相关性较低
- 所有特征具有相同的方差
- 特征之间相关性较低
- 所有特征具有相同的方差
因此我们将数据的协方差矩阵构造为单位阵就可以满足要求了。
- 白化的实现
我们再来回顾在PCA算法中原矩阵与基变换后矩阵协方差矩阵的关系:参考见数据清洗和特征选择→主成分分析PCA
设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系:
我们得到了Y的协方差矩阵D,它的特点是:
- 字段相关性为0,即除主对角线元素外值均为0
- 主对角线元素从大到小排列,值为原始数据协方差矩阵的特征值。
现在我们希望使得D为单位矩阵,则我们仅需令D主对角元素除以它自己,对应的Y则需要以下变化:
设Y中新的字段为c和d,则有
我们对Y做一下处理得到
则
- 白化的作用
???笔记未完成