点估计基础那一篇讨论到UMVUE了,这一讲试图给出无偏估计方差的一个下界。在统计理论1中推导的Fisher信息其实就是一个下界,但这一讲会更详细给出相关结论。
概念1 Cramer-Rao分布族(正则分布族)
{f(x,θ),θ∈Θ}
为了让C-R不等式成立,需要一些条件,满足这些条件的分布族被称为C-R分布族:
-
θ∈Θ,
Θ是开集,并且
f(x,θ)=f(x,θ′)⇔θ=θ′
- 记分布族的对数似然为
L(θ)=lnf(x,θ),假设对数似然二阶可导
- 记得分函数
S(x,θ)=∇L(θ),并假设
S(x,θ)∈L2(X,B(X),PX)
- 假设分布族
Fθ的支撑
Suppθ={x:f(x,θ)}>0与
θ无关
- 假设
f(x,θ)关于
θ可导
常见的非正则分布族的分布有均匀分布、带位移的指数分布等。
单个参数的情形
假设
Θ⊂R,则此时的得分函数是一维的
S(x,θ)=∂θ∂L(θ)=f(x,θ)1∂θ∂f(x,θ)
且满足
E[S(X,θ)]=0, E[S(X,θ)]2=I(θ)
定理1
f(x,θ)是Cramer-Rao分布族,
g^(X)与
θ^(X)分别是
g(θ)与
θ的无偏估计,其中
g(θ)可导,则
Var(θ^)≥I−1(θ), Var(g^(X))≥[g′(θ)]2I−1(θ)
证明 很明显取
g(θ)=θ就是更简单那种情况,所以我们来证明一下第二个不等式和它的取等条件。根据Cauchy-Schwarz不等式,
Var(X)Var(Y)≥[Cov(X,Y)]2,令
X=g^(X),
Y=S(X,θ),计算
Cov(g^(X),S(X,θ))=E[g^(X)S(X,θ)]−E[g^(X)]E[S(X,θ)]=E[g^(X)S(X,θ)]=∫g^(x)S(x,θ)f(x,θ)dx=∂θ∂∫g^(x)f(x,θ)dx=g′(θ)
第三个等号先把得分函数的公式带入,然后把求导和求积分交换次序得到第四个等号,然后那个积分就是
g^(X)的期望,因为它是无偏估计,所以期望就是
g(θ)。因此
Var(g^(X))Var(S(X,θ))=Var(g^(X))I(θ)≥[Cov(X,Y)]2=[g′(θ)]2⇒Var(g^(X))≥[g′(θ)]2I−1(θ)
根据Cauchy-Schwarz不等式取等的条件,上式取等需要
∃a(θ),
S(X,θ)=a(θ)g^(X),a.s.
称
[g′(θ)]2I−1(θ)为Cramer-Rao下界(CRLB),它与Fisher信息成反比,说明样本中信息越多时,估计量的方差就越有可能降到更低。对于简单随机样本
X1,⋯,Xn,他们的Fisher信息量是
nI(θ)(因为
S(X,θ)关于
X的可加性),因此Cramer-Rao下界为
CRLB=n1[g′(θ)]2I−1(θ)
这个式子说明样本量提高也能降低估计量的方差的下界。
基于CRLB还可以定义估计量的效率,
e(g^)=n→∞limVar(g^(X))CRLB
如果
e(g^)=1,称
g^(X)为渐近有效的无偏估计。
多个参数的情形
在多维的情况下,得分函数是
S(x,θ)=∇L(θ)
且满足
E[S(X,θ)]=0, E[S(X,θ)ST(X,θ)]=I(θ)
I(θ)是Fisher信息矩阵。
定理2
f(x,θ)是Cramer-Rao分布族,
g^(X)与
θ^(X)分别是
g(θ)与
θ的无偏估计,其中
g(θ)可导,它的Jacobi矩阵记为
Dg(θ),则
Var(g^(X))≥Dg(θ)I−1(θ)[Dg(θ)]T
证明 思路和定理1证明类似,也是需要根据Cauchy-Schwarz不等式。计算
Cov(g^(X),S(X,θ))=E[g^(X)ST(X,θ)]−E[g^(X)]E[S(X,θ)]=E[g^(X)ST(X,θ)]=∫g^(x)ST(x,θ)f(x,θ)dx=∇∫g^(x)f(x,θ)dx=Dg(θ)
因此
Var(g^(X))≥[Cov(X,Y)]Var(S(X,θ))−1[Cov(X,Y)]T⇒Var(g^(X))≥Dg(θ)I−1(θ)[Dg(θ)]T
根据Cauchy-Schwarz不等式取等的条件,上式取等需要
∃a(θ),
S(X,θ)=a(θ)g^(X),a.s.