[MATLAB]PCA应用场景及理论基础

针对主成分分析的可以与层次分析法相对比,主成分分析是较好的将多个变量变成少许变量来刻画事物的特征,而层次分析法本质就是在若干影响条件下来进行决策的。今天学习的主成分分析法背景还是要从美赛说起。

问题背景

在这里插入图片描述
美赛的题目喜欢开放,而国赛都是已经帮你想好主要的算法了,你只要用就行了,本题让我们找出评价指标来评价教练,并选出最好的四位教练。

评价体系选择

如何选择评价体系?客观性、准确性、指标的重要性,加权的依据?
答:选择的变量不能太多,变量之间相关要不能太大!
why?
变量太多增加问题的复杂性,也给合理分析问题和解决问题带来困难;虽然每个变量都提供了一定的信息,但其重要性有所不同,在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息有一定的重叠。

PCA出现

  • 一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标;
  • 另一方面随着考虑指标的增多而增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律;
  • 基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。

主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。

PCA应用案例

在这里插入图片描述
在这里插入图片描述
一种接近1,一种接近-1.PCA已经高度将少数变量把多数变量的模样刻画。

PCA理论基础

在上面已经提出了用少量的线性组合来刻画整体变量,如何用少量的呢?

理论1–找投影方向

在这里插入图片描述
这张图,投影方向不同,他实际效果也不同。就拿1图来说,线的上下,点与点高度集中。
高度集中意味着它的方差值会很小,都基本上等于平均值,散点没有穿越整个样本空间。而2图,样本点极其散落,所以方差很大。
在这里插入图片描述
投影方向的选择,意味着是pca的命根子。

理论2–协方差最小

这里就要谈一下,什么是协方差。协方差就是两个变量的相关性。两个变量相关越紧密,协方差越大,因此找协方差最小是刻画pca好坏标准之一。
比如说第一个主成分可以不考虑协方差,从第二个主成分考虑与第一个主成分的协方差,第三个主成分要考虑第1和第2个的主成分,以此类推。

PCA数学本质

将多个相关变量(指标)转化为线性无关的几个(少数)综合指标(主成分),从而实现维数化简。

  • 主成分分析适宜用于大样本的场合。
  • 主成分分析要求变量之间有一定的相关关系。
  • 主成分分析主要用于高维数据约简,是复杂分析问题的中间步骤,可用于综合评价。客观确定各指标的权重。
    在这里插入图片描述
    因此明确目的是降维还是综合评价。自然而然的就要给出主成分实现步骤了。
发布了137 篇原创文章 · 获赞 30 · 访问量 8864

猜你喜欢

转载自blog.csdn.net/m0_37149062/article/details/105409300