机器学习算法之PCA(简单明了)

在多元统计分析中,主成分分析Principal components analysisPCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。主成分分析由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值)。

1.回顾一下线性代数(Linear algebra)的知识:特征值、特征向量、奇异值分解(SVD)

首先,我们定义一个n*n的矩阵A和一个非零向量,如果存在满足矢量方程的标量值λ使得   

我们把λ称作矩阵A的特征值(Eigenvalues),把非零向量x称为矩阵A的特征向量(Eigenvectors)。

我们一般用公式求解,相应的特征向量用公式求解。

SVD:奇异值分解(Singular value decomposition),看到有的地方也称为奇异向量分解(Singular vector decomposition),主要作用是对矩阵进行分解,和特征分解不同,其分解结果不要求分解的矩阵为方阵。

2.PCA的技术流程

第一步:计算数据矩阵的均值和协方差

X的协方差矩阵可以由公式求出,其中是X中每一行的平均值,

第二步:SVD

对矩阵S进行奇异向量分解以提取主要成分

S = UΣVT  ,其中 ,用作为主要成分的方向,

第三步:矩阵投影

把数据矩阵X投影到一个新的矩阵Y上

Y = PTX,

更多更详细:http://www.stat.umn.edu/geyer/5601/notes/spect.pdf

https://www.value-at-risk.net/principal-component-analysis/

http://www.cs.tau.ac.il/~rshamir/abdbm/pres/17/PCA.pdf

http://www.dsc.ufcg.edu.br/~hmg/disciplinas/posgraduacao/rn-copin-2014.3/material/SignalProcPCA.pdf

https://www.projectrhea.org/rhea/index.php/PCA_Theory_Examples


猜你喜欢

转载自blog.csdn.net/weixin_40941966/article/details/80954086