统计量是我们用来对总体X的分布函数或者是参数进行统计推断的基础,因此往往需要获得统计量
T(x1,x2,x3)的分布,这也是数理统计的基本问题之一。我们
称统计量的分布为抽样分布。
特征函数
在讨论抽样分布之前,这里先介绍一个研究随机变量非常重要的一个工具:特征函数。它在我们后面对许多定理和性质的证明起着非常重要的性质。
当我们做信号处理的时候,我们经常将信号做傅里叶变换来研究信号的频域特征。类似于信号处理,对随机变量做傅里叶变换可求得该随机变量的特征函数。下面直接给出特征函数的定义:
定义: 设X是随机变量,称函数
eitX的数学期望
φX(t)=E(eitX)为X的特征函数,通常也称为X的分布的特征函数。
其中,
i=−1
,t∈(−∞,+∞)。
若X是离散型随机变量,其分布律为
pk=P{X=xk},则它的分布函数为:
φ(t)=E(eitX)=k∑pkeitxk
若X是连续型随机变量,其概率密度函数为
f(x),则它的分布函数为:
φ(t)=E(eitX)=∫−∞+∞f(x)eitxdx
下面给出几个常见分布的特征函数:
(1)二项分布
B(n,p)的特征函数
φt=[peit+(1−p)]n
(2)泊松分布
P(λ)的特征函数
φt=exp{λ(eit−1}
(3)正态分布
N(μ,σ2)的特征函数
exp{iμt−21σ2t2}
这里不给出推导的过程,有兴趣的读者可以利用定义式进行推导。常见分布的特征函数一般不需要记忆,当需要用到的时候查询即可,毕竟特征函数只是一个研究随机变量的工具。
在介绍特征函数的用途之前先介绍几个特征函数的性质,这些性质在后面推导统计量分布函数和矩等有着很显著的作用。
特征函数的一些重要性质:
(1)有界性,对任意
t∈(−∞,+∞),有
∣∣φ(t)∣∣≤φ(0)=1,其中||·||表示复变量的模。
(2)设
Y=aX+b,则
φY(t)=eibtφX(at),其中a,b为常数
(3)若X与Y相互独立,则X+Y的特征函数为
φX+Y(t)=φX(t)φY(t)。可推广到n个随机变量的和的特征函数为
φX1+X2+...+Xn(t)=φX1(t)φX2(t)...φXn(t)
(4)若X的n阶原点矩
E(Xn)存在,则X的特征函数
φ(t)的n阶导数存在,且有
E(Xk)=i−kφ(k)(0),k=1,2,...n
(5)随机变量的分布函数与其特征函数相互唯一确定。
其中,性质(3)常用于求统计量
T(X1,X2,...Xn)的特征函数;性质(4)可用于求解随机变量的n阶矩。
三大抽样分布
Γ函数
在介绍三大抽样分布之前,再介绍一个非常重要的函数:
Γ函数。它再三大分布的分布函数中扮演者很重要的角色。关于
Γ函数的详细介绍可以参考神奇的伽马函数上。下面仅给出
Γ函数的定义和性质。
由下列广义积分的实函数
Γ(s)=∫0+∞xs−1e−xdx,(s>0)
称为
Γ函数。
Γ函数的基本性质:
(1)递推公式:对一切实数s>0,有
Γ(s+1)=sΓ(s)。
特别的,对任何正整数n,有
Γ(n+1)=n!
因此,
Γ函数可看作是阶乘函数的推广。
(2)当
s→0+时,
Γ(s)→+∞
(3)余元公式:当
s∈(0,1)时,有
Γ(s)Γ(1−s)=sin(πs)π
特别的,当
s=21时,
Γ(21)=π
1. 卡方分布
定义: 设
X1,X2,...Xn是相互独立的随机变量,却
Xi∼N(0,1)(i=1,2,...n),称随机变量
χ2=X12+X22+...Xn2
所服从的分布是自由度为n的
χ2分布,记为
χ2∼χ2(n)。
密度函数:
χ2(n)分布的概率密度函数为:
f(x)={22nΓ(2n)1x2n−1e−2x,0,x>0x≤0
卡方分布密度函数曲线与自由度的变化规律:
当自由度
n→+∞时,
χ2(n)趋近于正态分布。
下面举两个利用特征函数的例子:
例1. 若
X∼χ2(n),求X的特征函数
φX(t)。
解:由特征函数的定义有:
φ(t)=E(eitX)=∫0+∞22nΓ(2n)1x2n−1e−2x=22nΓ(2n)1∫0+∞x2n−1e−(21−it)xdx
令
y=(21−it)x,则
x=(21−it)−1y,且
dx=(21−it)−1dy
带入上式得:
φ(t)=22nΓ(2n)1∫0+∞((21−it)−1y)2n−1ey(21−it)−1dy=22nΓ(2n)1(21−it)−2n∫0+∞y2n−1eydy=Γ(2n)(1−2it)−2n∫0+∞y2n−1eydy
对比
Γ函数得定义得:
φ(t)=Γ(2n)(1−2it)−2nΓ(2n)=(1−2it)−2n
因此,
X∼χ2(n)的特征函数为
(1−2it)−2n。
例2. 求上例中
X∼χ2(n)的期望
EX与方差
DX。(利用特征函数)
解:由特征函数的性质(4)知:
E(X)=i−1φ′(0),E(X2)=i−2φ′′(0)
因此计算特征函数的一阶导数和二阶导数得:
φ′(t)φ′′(t)=ni(1−2it)−2n+2=n(n+2)i2(1−2it)−2n+4
因此,
E(X)=i−1φ′(0)=n,E(X2)=i−2φ′′(0)=n(n+2)
方差由一阶矩和二阶矩得计算公式得::
DX=E(X2)−[E(X)]2=n(n+2)−n2=2n
综上,
EX=n,DX=2n
定理:
X∼χ2(n1),Y∼χ2(n2),且X与Y相互独立,则
X+Y∼χ2(n1+n2)
且有推广:
i=1∑kXi=χ2(i=1∑kni)
其中
Xi∼χ2(ni),且
X1,X2,...Xk相互独立。
该定理可利用特征函数的性质(3)证明,证明过程很简单,读者可以尝试。
2. t分布
定义: 设
X∼N(0,1),Y∼χ2(n),且
X与Y相互独立,则 称随机变量
T=Y/n
X
所服从的分布是自由度为n的t分布,记为
T∼t(n)。
密度函数: t(n)分布的概率密度函数为:
f(t)=nπ
Γ(2n)Γ(2n+1)(1+nt2)−2n+1
卡方分布密度函数曲线与自由度的变化规律:
从图中可以看出,t分布的密度函数是对称的,且当
t→+∞时,t分布趋近于标准正态
N(0,1)。
定理: 设
X∼N(μ,σ2),σ2Y∼χ2(n),且X与Y相互独立,则有:
T=Y/n
X−μ∼t(n)
此定理可由t分布的定义证明,证明如下:
将T变形为:
T=nY
X−μ=nY/σ2
σX−μ
由
σX−μ∼N(0,1),Y/σ2∼χ2(n),且二者相互独立,由t分布的定义得:
T∼t(n)。
3. F分布
定义: 设
X∼χ2(n1),Y∼χ2(n2),且
X与
Y相互独立,则称随机变量
F=Y/n2X/n1
所服从的分布是自由度为
(n1,n2)的F分布,记为
F∼F(n1,n2)。
密度函数:
F(n1,n2)分布的概率密度函数为:
f(z)={ Γ(2n1)Γ(2n2)Γ(2n1+n2)(n2n1)(n2n1z)2n1−1(1+n2n1z)−2n1+n2,0,z>0z≤0
F分布密度函数曲线随自由度的变化规律如下:
关于F分布有如下几个性质:
(1)若
F∼F(n1,n2),则
F1∼F(n2,n1)
(2)若
T∼t(n),则
T2∼F(1,n)
正态总体下常用统计量的分布
定理1: 设总体
X∼N(μ,σ2),X1,X2,...Xn是来自总体X的简单样本,令
Y=a1X1+a2X2+...+anXn
其中
ai是不全为0的常数,则有
Y∼N(μk=1∑nak,σ2k=1∑nak)
该定理可利用特征函数进行证明,证明如下:
证明:由特征函数的性质有:
φY(t)=k=1∏nφ(akt)
其中
φ为正态分布的特征函数,代入并化简,有
φY(t)=k=1∏nexp{iakμt−21σ2ak2t2}=exp{i(μk=1∑nak)t−21(σ2k=1∑nak2)t2}
由正态分布的特征函数及其性质可知,Y服从正太分布,且:
E(Y)=μk=1∑nak,D(Y)=σ2k=1∑nak2
推论: 设总体
X∼N(μ,σ2),X1,X2,...Xn是来自总体X的简单样本,则样本均值
Xˉ∼N(μ,nσ2)。
定理2: 设
X1,X2,....Xn是来自正态总体
N(μ,σ2)的简单样本,则样本均值
Xˉ和样本方差
S2=n−11i=1∑n(Xi−Xˉ)2相互独立,且
σ2(n−1)S2∼χ2(n−1)。
定理3: 设
X1,X2,...Xn是来自正态总体
N(μ,σ2)的简单样本,则有
(1)
S/n
Xˉ−μ∼t(n−1)
(2)
S2/n(Xˉ−μ)2∼F(1,n−1)
这里仅给出(1)的证明,利用F分布的性质可以直接得到(2)。
证明:由定理1和定理2可得:
σ/n
Xˉ−μ∼N(0,1),σ2(n−1)S2∼χ2(n−1)
且二者相互独立,于是由t分布的定义得:
σ2(n−1)S2/(n−1)
σ/n
Xˉ−μ=S/μXˉ−μ∼t(n−1)
定理4: 设
X1,X2,...,Xn1是来自正态总体
N(μ1,σ12)的简单样本,
Y1,Y2,...,Yn2是来自正态总体
N(μ2,σ22)的简单样本,且两样本相互独立,则
F=S22/σ22S12/σ12∼F(n1−1,n2−1)
证明: 由定理2有
σ12(n1−1)S12∼χ2(n1−1),σ22(n2−1)S22∼χ2(n2−1)
再由F分布的定义可得:
σ22(n2−1)S22/(n2−1)σ12(n1−1)S12/(n1−1)=S22/σ22S12/σ12∼F(n1−1,n2−1)
分位数
定义: 设随机变量X的分布函数为
F(x),对任意给定的实数
p(0<p<1),若存在
xp使得
P{X≤xp}=F{xp}=p
则称
xp为此概率分布的p分位数。
需要指出的是,当X为连续型随机变量时,因为分布函数
F(x)是连续的,所以对任意给定的实数
p(0<p<1),满足上述等式的
xp总存在,但可能不唯一。
当X为离散型随机变量时,因为分布函数
F(x)是右连续的、阶梯的,所有对于满足上述等式的
xp不一定存在。
(1)标准正态:对于标准正态分布
N(0,1),用
zp表示其分布的p分位数,即
P{X≤zp}=p
由于标准正态分布的概率密度函数图形关于y轴对称,因此有
z1−p=−zp。
(2)卡方分布:对于自由度为n的
χ2分布
χ2(n),用
χp2(n)表示其分布的p分位数,即
P{χ2≤χp2(n)}=p
(3)t分布:对于自由度为n的t分布t(n),用
tp(n)表示其分布的p分位数,即
P{T≤tp(n)}=p
和标准正态相同,t分布的概率密度函数图形关于y轴对称,因此
t1−p(n)=−tp(n)。
(4)F分布:对自由度为
n1,n2的F分布
F(n1,n2),用
Fp(n1,n2)表示其分布的p分位数,即
P{F≤Fp(n1,n2}=p
为了计算方便,上述四种重要分布的分位数一般通过查表得出。
总结
本文的主要内容是介绍数理统计中抽样分布的基础知识。为了方便研究统计量的分布,首先介绍了一个很重要的工具:特征函数,它在求解统计量的分布函数和证明统计量的许多性质起着非常重要的作用。此外,由于许多统计量的密度函数都与伽玛函数密切相关,因此还介绍了一些关于伽玛函数的一些基本性质,伽马函数实际上是阶乘函数在连续空间中的延拓。
在介绍完一些预备知识之后,我们对数理统计中非常重要的三个抽样分布:
χ2分布、t分布以及F分布进行了一系列的讨论,其中特征函数在其中扮演者很重要的性质。介绍完这三个抽样分布之后,我们还对正态总体下一些常用的统计量的分布进行了讨论,如样本均值
Xˉ和样本方差
S2的分布等。最后,我们对几个重要的分布的分位数进行了简单介绍,这对后续的计算打下一定的基础。