协方差矩阵对学统计的来说很重要,本文详细说明其相关知识(计算公式等)以及来历与实质含义。其实质主要是从一维到多维的一个推广。从以下几个点去描述它的来历:
一、低维样本情形的统计量:均值、标准差、方差
二、高维样本情形的统计量::均值、协方差
三、相关复杂概念、问题的解释
一、低维情形的统计量:均值、标准差、方差
假设自然数集中抽取一个含有3个样本的集合 :=(1,2,3), 我们简记这个集合的一些统计概念: 均值: ,方差:,标准差: (), 依次给出这些概念的公式描述。
均值一般指平均数。平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数关键在于确定“总数量”以及和总数量对应的总份数。对于样本,其平均值为
标准差: 简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
对于我们设的样本,其标准差为
方差=标准差的平方。对于我们设的样本,其方差为:
注: 如是总体(即估算总体方差),根号内除以n(对应excel函数:STDEVP); 如是抽样(即估算样本方差),根号内除以(n-1)(对应excel函数:STDEV);【这一点的理解具体在后面3.1节有详细解释。】
二、高维矩阵情形的统计量:均值、协方差
前面讲的是对于一维样本但往往现实生活中样本的特征是多维的,下面假设有3个样本(3行),每个样本有2个特征(2列):
上面这个样本不妨假设成3个哥们儿:小王、小二和小三, 第一个特征是知识储备量,第二个特征是受女孩子欢迎度。比如:小王知识储备量为1个单位,受欢迎度为2。 面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个知识储备量跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量。
首先记第一个特征(第一列)为 , 记第二个特征(第二列)为 , 很容易计算这两个特征的均值:
以及其方差:
我们仿照方差的定义 来 定义两个特征偏离其均值的程度,记为:
因此协方差矩阵可以写成如下形式:
如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越知识越多就越受女孩子欢迎,那必须的~结果为负值就说明负相关的,越有知识女孩子越讨厌。 如果为0,也是就是统计上说的“相互独立”。
此外,从协方差的定义上我们也可以看出一些显而易见的性质,如自协方差等于方差、交换性等:
三、相关复杂概念、问题的解释
3.1对于前面提到的,为什么对于样本分母要n-1的一个回答:
随机变量的方差描述的是变量的离散程度,
而样本方差是对整体方差做的无偏估计:
无偏估计, 上中学时第一次学习样本方差时便对分母n-1感到疑惑,为什么不是n呢?当年没有细究.现在消减一些困惑吧_.
为什么分母为n不行?
注意到公式中使用了最大似然法,用 来估算整体的均值,
设
则我们有
其中,
可以看到,分母为n时, 对整体方差的估计可能会变小,只有当 时才是无偏估计, 因此我们可以将分母变小来使方差更接近真实值. 那么分母该为多少呢?为什么分母n-1行?
替换式子中Var(X)如下:
即为无偏估计.
因此样本方差等于总体方差减样本均值的方差。如果用样本均值去估计总体均值,对总体方差的估计是有偏差的,偏差是样本均值的方差。需要做Bessel's correction去修正偏差,让偏差的期望等于0。
当然了,当n很大的时候,其实除以n和除以n-1的区别并不大。随着样本的增多,两者都会收敛到真实的总体方差。
方差是协方差的特殊情况,就是当两个变量x与y相等时候的情况。既然我们已经知道样本方差为什么是除以n-1。那么样本协方差也是一样的道理。
分母是n-1的情况下,估计值是总体方差的无偏估计。分母是n的情况下,值是最大似然估计。
如果觉得样本够大,那么用n-1是不错的,因为在大样本下,参数的方差就算大一点儿也不会多多少,影响也不会大到哪儿去。统计是一门很灵活的学科,不同的数据,会有不同的方法来处理。
3.2 补充材料:极大似然估计的理解
极大似然估计是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现的概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球,1个黑球;乙箱中有1个白球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,给定一个概率分布:如1000个球有a个黑b个白,而a和b就是我们需要估计的参数。 事件A发生的概率与未知参数a和b有关, 取值不同,则事件A发生的概率也不同,当我们在一次试验中事件A发生了,则认为此时的 应是 a 的一切可能取值中使达到最大的那一个,极大似然估计法就是要选取这样的a值作为参数a的估计值,使所选取的样本在被选的总体中出现的可能性为最大。极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。
引用: https://blog.csdn.net/weixin_39849762/article/details/111800019
码字不易, 转载请注明出处。