协方差和相关性的区别和联系

协方差：

相关性是协方差的标准化格式。协方差本身很难做比较。
例如：如果我们计算工资和年龄的协方差，因为这两个变量有不同的度量，所以我们会得到不能做比较的不同的协方差。
在这里插入图片描述
或写成：
该公式可以有如下理解：如果有X,Y两个变量，每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积，再对这每时刻的乘积求和并求出均值（其实是求“期望”，但就不引申太多新概念了，简单认为就是求均值了）。
注：
1.协方差可以反应两个变量的协同关系，变化趋势是否一致。同向还是方向变化。
2.X变大，同时Y也变大，说明两个变量是同向变化的，这时协方差就是正的。
3.X变大，同时Y变小，说明两个变量是反向变化的，这时协方差就是负的。
4.从数值来看，协方差的数值越大，两个变量同向程度也就越大。反之亦然。

追问：

那如果X，Y同向变化，但X大于均值，Y小于均值，那X-ux与Y-uy的乘积为负值啊？这不是矛盾了吗？
这种情况是有可能出现的，但是，总体看，这两个变量的协方差仍然是正的，因为你还要计算t2，t3.……t7时刻X-ux与Y-uy的乘积，然后再把这7个时刻的乘积求和做均值，才是最后X，Y的协方差。1个负、6个正，显然最后协方差很大可能性是正的。
另外，如果你还钻牛角尖，说如果t1，t2，t3……t7时刻X，Y都在增大，而且X大多都比均值大，Y大多都比均值小，这种情况协方差不就是负的了？多个负值求平均肯定是负值啊？但是X，Y都是增大的，都是同向变化的，这不就矛盾了？
这个更好解释了：这种情况不可能出现！
因为，你的均值算错了……X，Y的值应该均匀的分布在均值两侧才对，不可能都比均值大，或都比均值小。

所以，为了协方差这个问题，我们计算相关性来得到一个介于-1和1之间的值，就可以忽略它们各自不同的度量。

相关性：

就是用X、Y的协方差除以X的标准差和Y的标准差。
在这里插入图片描述
将这些元素打乱，并不会影响相关的结果。所以，相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。
既然是一种特殊的协方差，那它：
1、也可以反映两个变量变化时是同向还是反向，如果同向变化就为正，反向变化就为负。
2、由于它是标准化后的协方差，因此更重要的特性来了：它消除了两个变量变化幅度的影响，而只是单纯反应两个变量每单位变化时的相似程度。
那么为什么要通过除以标准差的方式来剔除变化幅度的影响呢？咱们简单从标准差公式看一下：在这里插入图片描述
每一时刻变量值与变量均值之差再平方，求得一个数值，再将每一时刻这个数值相加后求平均，再开方。所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差，也就是把协方差中变量变化幅度对协方差的影响剔除掉，这样协方差也就标准化了，它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。
同时，你可以反过来想象一下：既然相关系数是协方差除以标准差，那么，当X或Y的波动幅度变大的时候，它们的协方差会变大，标准差也会变大，这样相关系数的分子分母都变大，其实变大的趋势会被抵消掉，变小时也亦然。于是，很明显的，相关系数不像协方差一样可以在正无穷到负无穷间变化，它只能在+1到-1之间变化（相关系数的取值范围在+1到-1之间变化可以通过施瓦茨不等式来证明，有些复杂，这里就不熬述了，有兴趣的可以google下）。

总结：

如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高。

一种tang两种味

发布了46 篇原创文章 · 获赞 10 · 访问量 4404

私信关注