协方差和相关性的区别和联系

协方差:

相关性是协方差的标准化格式。协方差本身很难做比较。
例如:如果我们计算工资和年龄的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。
在这里插入图片描述
或写成:在这里插入图片描述
该公式可以有如下理解:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。
注:
1.协方差可以反应两个变量的协同关系, 变化趋势是否一致。同向还是方向变化。
2.X变大,同时Y也变大,说明两个变量是同向变化的,这时协方差就是正的。
3.X变大,同时Y变小,说明两个变量是反向变化的,这时协方差就是负的。
4.从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。

追问:

那如果X,Y同向变化,但X大于均值,Y小于均值,那X-ux与Y-uy的乘积为负值啊?这不是矛盾了吗?
这种情况是有可能出现的,但是,总体看,这两个变量的协方差仍然是正的,因为你还要计算t2,t3.……t7时刻X-ux与Y-uy的乘积,然后再把这7个时刻的乘积求和做均值,才是最后X,Y的协方差。1个负、6个正,显然最后协方差很大可能性是正的。
另外,如果你还钻牛角尖,说如果t1,t2,t3……t7时刻X,Y都在增大,而且X大多都比均值大,Y大多都比均值小,这种情况协方差不就是负的了?多个负值求平均肯定是负值啊?但是X,Y都是增大的,都是同向变化的,这不就矛盾了?
这个更好解释了:这种情况不可能出现!
因为,你的均值算错了……X,Y的值应该均匀的分布在均值两侧才对,不可能都比均值大,或都比均值小。

所以,为了协方差这个问题,我们计算相关性来得到一个介于-1和1之间的值,就可以忽略它们各自不同的度量。

相关性:

就是用X、Y的协方差除以X的标准差和Y的标准差。
在这里插入图片描述
将这些元素打乱,并不会影响相关的结果。所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
既然是一种特殊的协方差,那它:
1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

那么为什么要通过除以标准差的方式来剔除变化幅度的影响呢?咱们简单从标准差公式看一下:在这里插入图片描述
每一时刻变量值与变量均值之差再平方,求得一个数值,再将每一时刻这个数值相加后求平均,再开方。所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。
同时,你可以反过来想象一下:既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。于是,很明显的,相关系数不像协方差一样可以在正无穷到负无穷间变化,它只能在+1到-1之间变化(相关系数的取值范围在+1到-1之间变化可以通过施瓦茨不等式来证明,有些复杂,这里就不熬述了,有兴趣的可以google下)。

总结:

如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。

发布了46 篇原创文章 · 获赞 10 · 访问量 4404

猜你喜欢

转载自blog.csdn.net/GFDGFHSDS/article/details/104670510