一、统计量
1.1 定义
设是从总体中抽取的容量为n的一个样本,如果由此样本构造一个函数,不依赖与任何未知参数,则成函数是一个统计量。
通常又称为样本统计量。当获得样本的一组具体观测值,代入,计算的数值,就获得一个具体的统计量值。
1.2 常用统计量
根据上述可知,统计量是样本的一个函数,不同的推断问题要求构造不同的统计量。要注意的是,依赖于总体分布的未知参数不属于统计量,比如数学期望和方差。
下列为常用的统计量:
- 样本均值:,反映出总体的数学期望。
- 样本方差:,反映的是总体方差的信息。
- 样本变异系数:,反映出随机变量在以它的均值为单位时取值的离散程度。
- 样本k阶矩:,反映出总体k阶矩的信息。显然,,就是样本均值。
- 样本k阶中心矩:,反映了总体k阶中心矩的信息。显然,就是样本方差。 (数学期望和方差等概念可用“矩”的概念来描述)
二、统计三大分布
若对任一自然数n都能导出统计量的分布的数学表达式,这种分布成为精准的抽样分布。它对样本量n较小的统计推断问题非常有用。精准的抽样分布大多是在正态总体情况下得到的。在正态总条件下,主要有分布、分布、分布,常称为统计三大分布。
2.1 分布
分布(Chi-squre distribution),就是卡方分布。定义如下:
设随机变量相互独立,且服从标准正态分布,则它们的平方和服从自由度为的分布。
自由度是统计学中常用的一个概念,它可以解释为独立变量的个数,还可以解释为二次型的秩。例如,是自由度为1的分布,;是自由度为的分布,。
下图为当,,,时,分布的概率密度函数曲线:
分布的数学期望为:;分布的方差为:;
分布具有可加性,即若,,且独立,则。
由上图还可以看出,当自由度足够大时,分布的概率密度曲线趋于对称。当时,分布的极限分布时正态分布。
的分位数可由卡方分布表查得。当自由度很大时,近似服从。实际上,当自由度时,有 。式中,即,为正态分位数,可由正态分布表查得。
卡方分布表:
2.2 分布
分布定义:
设随机变量,,且与独立,则
其分布称为分布,记为,其中为自由度。
分布的概率函数是一偶函数,图形如下:
当时,分布的数学期望。当时,分布的方差。
由图可以看出,分布的密度函数曲线与标准正态分布的密度函数曲线非常相似,都是单峰偶函数,只是的密度函数的两侧尾部要比的两侧尾部粗一些。的方差比的方差大一些。
自由度为1的分布称为柯西分布,随着自由度的增加,分布的密度函数越来越接近标准正态分布的密度函数。实际应用中,一般当时,分布与标准正态分布就非常接近了。
2.3 分布
分布有着广泛的应用,在方差分析、回归方程的显著性检验中有着重要的地位。分布的定义:
设随机变量和相互独立,且和分别服从自由度为和的分布,随机变量有如下表达式:
则称服从第一自由度为,第二自由度为的分布,记为,简记为。
分布的密度函数图如下图所示:
设随机变量服从分布,则数学期望和方差分别为:
,
,
分布的分位数可查分布表获得,且
由此可知,在分布中,两个自由度的位置不可互换。此外,这一性质在查分布表时有重要应用。
分布与分布还存在如下关系:
如果随机变量服从分布,则服从的分布。这在回归分析的回归系数显著性检验中有用。
三、中心极限定理
中心极限定理:
设从均值为、方差为(有限)的任意一个总体中抽取样本量为的样本,当充分大时,样本均值的抽样分布近似服从均值为、方差为的正态分布,即,等价有。
注意:的期望值与总体均值相同,而方差则缩为总体方差的。这说明当用样本均值去估计总体均值时,平均来说没有偏差(这一点称为无偏性);当越来越大时,的散布程度越来越小,即用估计就越来越准确。
该定理告诉我们,不管总体的分布是什么,此时样本均值的分布总是近似正态分布,只要总体的方差有限。
如上的定理要求必须充分大,那么多大才叫充分大?这与总体分布形状有关,总体偏离正态越远,则要求越大。然而在实际应用中,总体的分布未知。此时,我们常要求。
例子: