16 主成分分析
16.1 总体主成分分析
16.1.1 基本想法
数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息
主成分分析中,
- 首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1
- 之后,对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和最大的,方差表示在新变量上信息的大小
- 最终,将新变量依次称为第一主成分,第二主成分等
数据集合集合中的样本由实数空间中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。对原坐标系中的数据进行主成分分析等价于坐标系旋转变换,将数据投影到新的坐标轴上,新的坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等,数据在每一轴上的坐标值的平方表示相应变量的方差;并且,这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的
对方差最大的解释:
故,在旋转坐标中选取离样本点的距离平方和最小的轴
在数据总体上进行的主成分分析成为总体主成分分析,在有限样本上进行的主成分分析成为样本主成分分析
16.1.2 定义和导出
16.1.3 主要性质
16.1.4 主成分的个数
先给出一个定理,说明选择 k 个主成分是最优选择
定理16.2表明,当
的线性变化
在
时,其协方差矩阵
的迹
取得最大值。换句话说,当取
的前
列取
的前
个主成分时,能够最大限度地保留原有变量方差的信息
定理16.3可以理解为,当舍弃
的后
列,即舍弃变量
的后
个主成分时,原有变量的方差的信息损失最少
以上两个定理可以作为选择 个主成分的理论依据。具体选择 的方法,通常利用方差贡献率
16.1.5 规范化变量的总体主成分
在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果。为了消除这个影响,常常对各个随机变量实施规范化,使其均值为 0,方差为 1
显然,规范化随机变量的协方差矩阵就是相关矩阵
,主成分分析通常在规范化随机变量的协方差矩阵,即相关矩阵上进行