UA MATH566 统计理论2 C-R不等式

单个参数的情形
多个参数的情形

点估计基础那一篇讨论到UMVUE了，这一讲试图给出无偏估计方差的一个下界。在统计理论1中推导的Fisher信息其实就是一个下界，但这一讲会更详细给出相关结论。

概念1 Cramer-Rao分布族（正则分布族） $\{f(x,\theta),\theta \in \Theta\}$
为了让C-R不等式成立，需要一些条件，满足这些条件的分布族被称为C-R分布族：

$\theta \in \Theta$ ， $\Theta$ 是开集，并且 $f(x,\theta)=f(x,\theta^{'}) \Leftrightarrow \theta = \theta^{'}$
记分布族的对数似然为 $L(\theta)=\ln f(x,\theta)$ ，假设对数似然二阶可导
记得分函数 $S(x,\theta)=\nabla L(\theta)$ ，并假设 $S(x,\theta) \in L^2(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)$
假设分布族 $F_{\theta}$ 的支撑 $Supp_{\theta}=\{x:f(x,\theta)\}>0$ 与 $\theta$ 无关
假设 $f(x,\theta)$ 关于 $\theta$ 可导

常见的非正则分布族的分布有均匀分布、带位移的指数分布等。

单个参数的情形

假设 $\Theta \subset \mathbb{R}$ ，则此时的得分函数是一维的
$S(x,\theta) = \frac{\partial L(\theta)}{\partial \theta} = \frac{1}{f(x,\theta)} \frac{\partial f(x,\theta)}{\partial \theta}$
且满足
$E[S(X,\theta)]=0,\ \ E[S(X,\theta)]^2 = I(\theta)$

定理1 $f(x,\theta)$ 是Cramer-Rao分布族， $\hat{g}(X)$ 与 $\hat{\theta}(X)$ 分别是 $g(\theta)$ 与 $\theta$ 的无偏估计，其中 $g(\theta)$ 可导，则
$Var(\hat{\theta})\ge I^{-1}(\theta),\ \ Var(\hat{g}(X)) \ge [g'(\theta)]^2I^{-1}(\theta)$

证明很明显取 $g(\theta)=\theta$ 就是更简单那种情况，所以我们来证明一下第二个不等式和它的取等条件。根据Cauchy-Schwarz不等式， $Var(X)Var(Y)\ge [Cov(X,Y)]^2$ ，令 $X = \hat{g}(X)$ ， $Y = S(X,\theta)$ ，计算
$Cov(\hat{g}(X),S(X,\theta)) = E[\hat{g}(X)S(X,\theta)]-E[\hat{g}(X)]E[S(X,\theta)]=E[\hat{g}(X)S(X,\theta)] \\ = \int \hat{g}(x)S(x,\theta)f(x,\theta)dx = \frac{\partial }{\partial \theta} \int \hat{g}(x)f(x,\theta)dx = g'(\theta)$
第三个等号先把得分函数的公式带入，然后把求导和求积分交换次序得到第四个等号，然后那个积分就是 $\hat{g}(X)$ 的期望，因为它是无偏估计，所以期望就是 $g(\theta)$ 。因此
$Var(\hat{g}(X))Var(S(X,\theta)) = Var(\hat{g}(X)) I(\theta)\ge [Cov(X,Y)]^2 = [g'(\theta)]^2 \\ \Rightarrow Var(\hat{g}(X)) \ge [g'(\theta)]^2I^{-1}(\theta)$
根据Cauchy-Schwarz不等式取等的条件，上式取等需要 $\exists a(\theta)$ ，
$S(X,\theta) = a(\theta) \hat{g}(X),a.s.$

称 $[g'(\theta)]^2I^{-1}(\theta)$ 为Cramer-Rao下界（CRLB），它与Fisher信息成反比，说明样本中信息越多时，估计量的方差就越有可能降到更低。对于简单随机样本 $X_1,\cdots,X_n$ ，他们的Fisher信息量是 $nI(\theta)$ （因为 $S(X,\theta)$ 关于 $X$ 的可加性），因此Cramer-Rao下界为
$CRLB = \frac{1}{n}[g'(\theta)]^2I^{-1}(\theta)$
这个式子说明样本量提高也能降低估计量的方差的下界。

基于CRLB还可以定义估计量的效率，
$e(\hat{g}) = \lim_{n \to \infty} \frac{CRLB}{Var(\hat{g}(X))}$
如果 $e(\hat{g})=1$ ，称 $\hat{g}(X)$ 为渐近有效的无偏估计。

多个参数的情形

在多维的情况下，得分函数是
$S(x,\theta) = \nabla L(\theta)$
且满足
$E[S(X,\theta)]=0,\ \ E[S(X,\theta)S^T(X,\theta)] = I(\theta)$
$I(\theta)$ 是Fisher信息矩阵。

定理2 $f(x,\theta)$ 是Cramer-Rao分布族， $\hat{g}(X)$ 与 $\hat{\theta}(X)$ 分别是 $g(\theta)$ 与 $\theta$ 的无偏估计，其中 $g(\theta)$ 可导，它的Jacobi矩阵记为 $Dg(\theta)$ ，则
$Var(\hat{g}(X)) \ge Dg(\theta)I^{-1}(\theta)[Dg(\theta)]^T$

证明思路和定理1证明类似，也是需要根据Cauchy-Schwarz不等式。计算
$Cov(\hat{g}(X),S(X,\theta)) = E[\hat{g}(X)S^T(X,\theta)]-E[\hat{g}(X)]E[S(X,\theta)]=E[\hat{g}(X)S^T(X,\theta)] \\ = \int \hat{g}(x)S^T(x,\theta)f(x,\theta)dx = \nabla \int \hat{g}(x)f(x,\theta)dx = Dg(\theta)$
因此
$Var(\hat{g}(X))\ge [Cov(X,Y)]Var(S(X,\theta))^{-1}[Cov(X,Y)]^T \\ \Rightarrow Var(\hat{g}(X)) \ge Dg(\theta)I^{-1}(\theta)[Dg(\theta)]^T$
根据Cauchy-Schwarz不等式取等的条件，上式取等需要 $\exists a(\theta)$ ，
$S(X,\theta) = a(\theta) \hat{g}(X),a.s.$

UA MATH566 统计理论2 C-R不等式简介

UA MATH566 统计理论2 C-R不等式

单个参数的情形

多个参数的情形

猜你喜欢