协方差矩阵对学统计的来说很重要，本文详细说明其相关知识(计算公式等)以及来历与实质含义。其实质主要是从一维到多维的一个推广。从以下几个点去描述它的来历：

一、低维样本情形的统计量：均值、标准差、方差

二、高维样本情形的统计量：：均值、协方差

三、相关复杂概念、问题的解释

一、低维情形的统计量：均值、标准差、方差

假设自然数集中抽取一个含有3个样本的集合 $S$ :=（1，2，3），我们简记这个集合的一些统计概念: 均值: ${\bar S}$ ，方差: $var(S)$ ,标准差: $\sigma$ ( $S$ )，依次给出这些概念的公式描述。

均值一般指平均数。平均数，统计学术语，是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数关键在于确定“总数量”以及和总数量对应的总份数。对于样本 $S$ ，其平均值为

${\bar S} = \frac{1+2+3}{3}=2$

标准差: 简单来说，标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。

对于我们设的样本 $S$ ，其标准差为

$\sigma(S)=\sqrt{\frac{(1-{\bar S})^2+(2-{\bar S})^2 + (3-{\bar S})^2}{3-1}}=1$

方差=标准差的平方。对于我们设的样本 $S$ ，其方差为：

$var(S)=\frac{(1-{\bar S})^2+(2-{\bar S})^2 + (3-{\bar S})^2}{3-1}=1$

注：如是总体（即估算总体方差），根号内除以n（对应excel函数：STDEVP）；如是抽样（即估算样本方差），根号内除以（n-1）（对应excel函数：STDEV）；【这一点的理解具体在后面3.1节有详细解释。】

二、高维矩阵情形的统计量：均值、协方差

前面讲的是对于一维样本但往往现实生活中样本的特征是多维的，下面假设有3个样本(3行)，每个样本有2个特征(2列)：

$S=\begin{matrix} 1&2 \\ 2&3 \\ 3&4 \end{matrix}$

上面这个样本不妨假设成3个哥们儿：小王、小二和小三，第一个特征是知识储备量，第二个特征是受女孩子欢迎度。比如：小王知识储备量为1个单位，受欢迎度为2。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个知识储备量跟他受女孩子欢迎程度是否存在一些联系啊，嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量。

首先记第一个特征（第一列）为 $S_1:=\{1,2,3\}$ , 记第二个特征（第二列）为 $S_2:=\{2,3,4\}$ , 很容易计算这两个特征的均值：

${\bar S_1} = \frac{1+2+3}{3}=2,{\bar S_2} = \frac{2+3+4}{3}=3.$

以及其方差:

$var(S_1)=\frac{(1-{\bar S_1})^2+(2-{\bar S_1})^2 + (3-{\bar S_1})^2}{3-1}=1,\\~~~~~ var(S_2)=\frac{(2-{\bar S_2})^2+(3-{\bar S_2})^2 + (4-{\bar S_2})^2}{3-1}=1.$

我们仿照方差的定义来定义两个特征偏离其均值的程度,记为 $cov(S_1,S_2)$ ：

$cov(S_1,S_2)\\ =\frac{(1-{\bar S_1})(2-{\bar S_2})+(2-{\bar S_1})(3-{\bar S_2}) +(3-{\bar S_1})(4-{\bar S_2}) }{2-1}=1$

因此协方差矩阵可以写成如下形式：

$C=\bigl(\begin{smallmatrix} cov(S1,S1) & cov(S1,S2) \\ cov(S2,S1) & cov(S2,S2) \end{smallmatrix}\bigr).$

如果结果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，也就是说一个人越知识越多就越受女孩子欢迎，那必须的~结果为负值就说明负相关的，越有知识女孩子越讨厌。如果为0，也是就是统计上说的“相互独立”。

此外，从协方差的定义上我们也可以看出一些显而易见的性质，如自协方差等于方差、交换性等：

$cov(S_1,S_1)=var(S_1), cov(S_1,S_2)=cov(S_2,S_1);$

三、相关复杂概念、问题的解释

3.1对于前面提到的，为什么对于样本分母要n-1的一个回答：

随机变量的方差描述的是变量的离散程度,

$Var(X)=E[(X-\mu)^2]=E(\frac{1}{n}\sum (X_i-\mu)^2)=\sigma^2$

而样本方差是对整体方差做的无偏估计:

$Var(X)=E[(X-\bar X)^2]=E(\frac{1}{n-1}\sum (X_i-\bar X)^2)=\sigma^2$

无偏估计, 上中学时第一次学习样本方差时便对分母n-1感到疑惑,为什么不是n呢?当年没有细究.现在消减一些困惑吧_.

为什么分母为n不行?

注意到公式中使用了最大似然法,用 $\bar X$ 来估算整体的均值 $\mu$ ,

设

$\mathbb S^2 \nonumber &={1\over n}\sum_{i=1}^n(X_i-\bar X)^2$

则我们有

$\begin{align}E[\mathbb S^2] \nonumber &=E[{1\over n}\sum_{i=1}^n(X_i-\bar X)^2] \\ \nonumber &= E[{1\over n}\sum_{i=1}^n [(X_i-\mu)+(\mu-\bar X)]^2] \\ \nonumber &= E[[{1\over n}\sum_{i=1}^n (X_i-\mu)^2]-(\bar X-\mu)^2] \\ \nonumber &=\text{Var}(X)-E[(\bar X-\mu)^2] \\ \nonumber &= \sigma^2-{1\over n}\sigma^2={n-1\over n}\sigma^2 \\ \nonumber &\le \sigma^2 \nonumber \end{align}$

其中,

$E[(\bar X-\mu)^2=var(\bar X)=var({1\over n}\sum_{i=1}^n (X_i))\\ ={1\over n^2}\sum_{i=1}^n var (X_i)={1\over n^2} n \sigma^2={1\over n} \sigma^2$

可以看到,分母为n时, 对整体方差的估计可能会变小,只有当 $\bar X= \mu$ 时才是无偏估计, 因此我们可以将分母变小来使方差更接近真实值. 那么分母该为多少呢？为什么分母n-1行?

替换式子中Var(X)如下：

$\text{Var}(X)=\sigma^2={n\over n-1}E[S^2] = {1\over n-1}\sum_{i=1}^n (X_i-\bar X)$

即为无偏估计.

因此样本方差等于总体方差减样本均值的方差。如果用样本均值去估计总体均值，对总体方差的估计是有偏差的，偏差是样本均值的方差。需要做Bessel's correction去修正偏差，让偏差的期望等于0。

当然了，当n很大的时候，其实除以n和除以n-1的区别并不大。随着样本的增多，两者都会收敛到真实的总体方差。

方差是协方差的特殊情况，就是当两个变量x与y相等时候的情况。既然我们已经知道样本方差为什么是除以n-1。那么样本协方差也是一样的道理。

分母是n-1的情况下，估计值是总体方差的无偏估计。分母是n的情况下，值是最大似然估计。

如果觉得样本够大，那么用n-1是不错的，因为在大样本下，参数的方差就算大一点儿也不会多多少，影响也不会大到哪儿去。统计是一门很灵活的学科，不同的数据，会有不同的方法来处理。

3.2 补充材料：极大似然估计的理解

极大似然估计是建立在极大似然原理的基础上的一个统计方法，极大似然原理的直观想法是，一个随机试验如有若干个可能的结果A，B，C，... ，若在一次试验中，结果A出现了，那么可以认为实验条件对A的出现有利，也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球，1个黑球；乙箱中有1个白球．99个黑球。现随机取出一箱，再从抽取的一箱中随机取出一球，结果是黑球，这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多，这时我们自然更多地相信这个黑球是取自乙箱的。一般说来，给定一个概率分布：如1000个球有a个黑b个白，而a和b就是我们需要估计的参数。事件A发生的概率与未知参数a和b有关，取值不同，则事件A发生的概率 $P(A|\theta)$ 也不同，当我们在一次试验中事件A发生了，则认为此时的 $\theta$ 应是 a 的一切可能取值中使 $P(A|\theta)$ 达到最大的那一个，极大似然估计法就是要选取这样的a值作为参数a的估计值，使所选取的样本在被选的总体中出现的可能性为最大。极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。当然极大似然估计只是一种粗略的数学期望，要知道它的误差大小还要做区间估计。

引用： https://blog.csdn.net/weixin_39849762/article/details/111800019

码字不易，转载请注明出处。

协方差矩阵的意义与见解

一、低维情形的统计量：均值、标准差、方差

二、高维矩阵情形的统计量：均值、协方差

三、相关复杂概念、问题的解释

3.1对于前面提到的，为什么对于样本分母要n-1的一个回答：

3.2 补充材料：极大似然估计的理解

猜你喜欢