方差与协方差
方差: s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n-1} s2=n−1∑i=1n(xi−xˉ)2
针对一维样本集合,求出的协方差就是方差,即方差是协方差的一种集合,意义和方差一样,都是反映集合中各元素的离散度。
协方差: cov x y = ∑ i = 0 n ( x i − μ x ) ( y i − μ y ) ( n − 1 ) \operatorname{cov}_{x y}=\frac{\sum_{i=0}^{n}\left(x_{i}-\mu_{x}\right)\left(y_{i}-\mu_{y}\right)}{(n-1)} covxy=(n−1)∑i=0n(xi−μx)(yi−μy)
针对二维样本集合,求出的协方差就是反映的是两个维度之间的相关性,正相关负相关或无相关
如果协方差结果为正值,则说明两者是正相关的,如果结果为负值,则说明两者是负相关的,如果结果为0,则表示两者之间没有关系。
协方差只是说明了线性相关的方向问题,即从正无穷到负无穷,不能说明相关的程度,因为这个值可能很大也可能很小,所以还引出了相关系数=两个维度的协方差/(两个维度的标准差),其值始终在-1到1之间变化。
协方差矩阵
针对多维样本集合,求出的是各个维度总体的相关性,针对各维度之间的关系,所以二维以上计算协方差用的就是协方差矩阵。
举个栗子: 假设要分析学生学科成绩之间的相关性,其成绩结果如下:
Student Math English Art 1 90 60 90 2 90 90 30 3 60 60 60 4 60 60 90 5 30 30 30 \begin{array}{|c|c|c|c|} \hline \text { Student } & \text { Math } & \text { English } & \text { Art } \\ \hline 1 & 90 & 60 & 90 \\ \hline 2 & 90 & 90 & 30 \\ \hline 3 & 60 & 60 & 60 \\ \hline 4 & 60 & 60 & 90 \\ \hline 5 & 30 & 30 & 30 \\ \hline \end{array} Student 12345 Math 9090606030 English 6090606030 Art 9030609030
我们可以将成绩集合变为一个矩阵A: [ 90 60 90 90 90 30 60 60 60 60 60 90 30 30 30 ] \left[\begin{array}{lll} 90 & 60 & 90 \\ 90 & 90 & 30 \\ 60 & 60 & 60 \\ 60 & 60 & 90 \\ 30 & 30 & 30 \end{array}\right] ⎣
⎡909060603060906060309030609030⎦
⎤,同时对每个学科求平均值的矩阵 A ^ \hat A A^: [ 66 60 60 66 60 60 66 60 60 66 60 60 66 60 60 ] \left[\begin{array}{lll} 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \end{array}\right] ⎣
⎡666666666660606060606060606060⎦
⎤
通过样本的值减去自身样本的均值,可以得到差值的矩阵B: [ 24 0 30 24 30 − 30 − 6 0 0 − 6 0 30 − 36 − 30 − 30 ] \left[\begin{array}{ccc}24 & 0 & 30 \\ 24 & 30 & -30 \\ -6 & 0 & 0 \\ -6 & 0 & 30 \\ -36 & -30 & -30\end{array}\right] ⎣
⎡2424−6−6−3603000−3030−30030−30⎦
⎤
通过协方差的公式,可以求得协方差的矩阵C: [ E 11 E 12 E 13 E 21 E 22 E 23 E 31 E 32 E 33 ] \left[\begin{array}{ccc}E11 & E12 & E13 \\ E21& E22 & E23 \\ E31 & E32 & E33\end{array}\right] ⎣ ⎡E11E21E31E12E22E32E13E23E33⎦ ⎤
上述式中:
E 11 = [ 24 ∗ 24 + 24 ∗ 24 + ( − 6 ) ∗ ( − 6 ) + ( − 6 ) ∗ ( − 6 ) + ( − 36 ) ∗ ( − 36 ) ] / 5 E11 = [24*24 + 24*24 + (-6)*(-6)+(-6)*(-6)+ (-36)*(-36)]/5 E11=[24∗24+24∗24+(−6)∗(−6)+(−6)∗(−6)+(−36)∗(−36)]/5
E 23 = [ 0 ∗ 30 + 30 ∗ ( − 30 ) + 0 ∗ 0 + 0 ∗ 30 + ( − 30 ) ∗ ( − 30 ) ] / 5 = 0 E23 = [0*30 + 30*(-30) + 0*0+0*30+ (-30)*(-30)]/5 = 0 E23=[0∗30+30∗(−30)+0∗0+0∗30+(−30)∗(−30)]/5=0
则有协方差矩阵C= [ 504 360 180 360 360 0 180 0 720 ] \left[\begin{array}{ccc}504 & 360 & 180 \\ 360& 360 & 0 \\ 180& 0 & 720\end{array}\right] ⎣ ⎡50436018036036001800720⎦ ⎤
有全部数据,就除以n
如果是抽的样,就除以n-1,因为要剔除系统误差。