统计学习（三）：假设检验与 p-values

设参数空间 $\circledS$ 可以分解为互不相交的子空间 $\circledS_0$ 和 $\circledS_1$ . 检验

H 0 : θ \in Ⓢ 0 v . s . H 1 : θ \in Ⓢ 1

$H_0 : \,\, \theta\in\circledS_0\qquad v.s.\qquad H_1 : \,\, \theta\in \circledS_1$
零假设

H0 $H_0$ ( null hypothesis ), 备择假设

H1 $H_1$ ( alternative hypothesis ), 检验结果

设样本 $x$ , 检验统计量 $T(x)$ , 临界值 $c$ , 则拒绝域 $R$ 通常可以表示为

R = {x : T (x) > c}

$R=\{ x : T(x) > c \}$

定义3.1 一个检验的势或功效( power function ) 定义为

β (θ) = P θ (X \in R)

$\beta(\theta)=\mathcal{P}_{\theta}(X\in R)$
定义检验的容度( size )为

α=supθ∈Ⓢ0β(θ) $\alpha=\mathop{sup}\limits_{\theta\in\circledS_0}\beta(\theta)$ .

称检验的水平为 $\alpha$ , 如果该检验的容度不超过 $\alpha$ , 即，对

\forall θ \in Ⓢ 0, 有 β (θ) \leq α

$\forall \, \theta\in\circledS_0, \, \mbox{有}\, \beta(\theta)\le \alpha$

The Wald Test

设 $\theta$ 的估计量 $\hat{\theta}$ , $\hat{se}$ 是估计量的标准误。

扫描二维码关注公众号，回复： 1544692 查看本文章

定义3.2 检验 $H_0 : \, \theta=\theta_0\qquad H_1 : \, \theta \ne \theta_0$
假设 $\hat{\theta}$ 是渐近正态的，即 $\dfrac{\hat{\theta}-\theta_0}{\hat{se}}\xrightarrow{d} N(0, 1)$

那么，水平 $\alpha$ 的 Wald 检验：拒绝 $H_0$ , 当 $|W|>z_{\frac{\alpha}{2}}$ , 这里

$W=\dfrac{\hat{\theta}-\theta_0}{\hat{se}}\qquad (z_{\alpha}=\Phi^{-1}(1-\alpha))$

定理3.1 渐近地， Wald 检验有水平 $\alpha$ , 即

P θ 0 (| W | > z α 2) ⟶ α, 当 n \to \infty 时

$\mathcal{P}_{\theta_0}(|W|>z_{\frac{\alpha}{2}})\longrightarrow \alpha,\,\, \mbox{当} \,n\rightarrow\infty\,\mbox{时}$ .

定义3.3 称 $\beta(\theta)=\mathcal{P}_{\theta}(X\in R),\, \theta\in \circledS_1$ 为检验的功效( Power ).

例3.1 比较两个总体的均值

设 $x_1, x_2, \dots, x_m; y_1, y_2, \dots, y_n$ 是分别来自两个总体的样本，均值分别为 $\mu_1, \mu_2$ , 检验

H 0 : μ 1 = μ 2 H 1 : μ 1 \neq μ 2

$H_0 : \, \mu_1=\mu_2\qquad H_1 : \, \mu_1 \ne \mu_2$
令

δ=μ1−μ2 $\delta=\mu_1-\mu_2$ , 则检验等价于

H 0 : δ = 0 H 1 : δ \neq 0

$H_0 : \, \delta=0\qquad H_1 : \, \delta \ne 0$

$\delta$ 的估计量 $\hat{\delta}=\bar{x}-\bar{y}$ , $\hat{se}=\sqrt{\dfrac{s_1^2}{m}+\dfrac{s_2^2}{n}}$ ,
$s_i^2,\, (i=1, 2)$ 为样本方差。

令 $W=\dfrac{\hat{\delta}-0}{\hat{se}}=\dfrac{\bar{x}-\bar{y}}{\sqrt{\dfrac{s_1^2}{m}+\dfrac{s_2^2}{n}}}$

那么，拒绝域 $R=\{ W>z_{\frac{\alpha}{2}} \}$

例3.2 比较两个总体的中位数

令 $\delta=\nu_1-\nu_2$ , $\nu_i$ 为总体中位数，即 $\nu_i=F_i^{-1}(\frac{1}{2})$ . 检验

H 0 : δ = 0 H 1 : δ \neq 0

$H_0 : \, \delta=0\qquad H_1 : \, \delta \ne 0$
令

δ^=ν1^−ν2^ $\hat{\delta}=\hat{\nu_1}-\hat{\nu_2}$ ,

νi^ $\hat{\nu_i}$ 为样本中位数，
标准误从 bootstrap 样本得到，则

W=δ^/se^ $W=\hat{\delta}/\hat{se}$ , 拒绝域

R={W>zα2} $R=\{W>z_{\frac{\alpha}{2}}\}$

定义3.4 设对每一个 $\alpha\in (0, 1)$ , 存在水平为 $\alpha$ 的检验，其拒绝域为 $R_{\alpha}$ . 则 $p-value=inf\{ \alpha: \, T(X)\in R_{\alpha} \}$ . 即， $p$ 值是能够拒绝 $H_0$ 的最小显著性水平。

定理3.2 假设水平为 $\alpha$ 的检验形式：拒绝 $H_0$ , 当且仅当 $T(X)\ge c_{\alpha}$ . 那么，

p - v a l u e = s u p θ \in Ⓢ 0 P θ (T (X) \geq T (x))

$p-value=\mathop{sup}\limits_{\theta\in\circledS_0} \mathcal{P}_{\theta}(T(X)\ge T(x))$

$x$ 为 $X$ 的观测值。如果 $\circledS_0=\{ \theta_0 \}$ , 那么

p - v a l u e = P θ 0 (T (X) \geq T (x))

$p-value= \mathcal{P}_{\theta_0}(T(X)\ge T(x))$

定理3.3 令 $w=\dfrac{\hat{\theta}-\theta_0}{\hat{se}}$ 是 $Wald$ 统计量 $W$ 的观测值，则

p - v a l u e = P θ 0 (| W | > | w |) \approx P (| Z | > | w |) = 2 Φ (- | w |)

$p-value=\mathcal{P}_{\theta_0}(|W|>|w|)\thickapprox\mathcal{P}(|Z|>|w|)=2\Phi(-|w|)$
这里，

Z∼N(0,1) $Z\sim N(0, 1)$ .

多项分布数据的卡方检验

$\chi^2$ 分布

定义3.5 令 $Z_1, Z_2, \dots, Z_k$ 是独立同分布的( i.i.d. ), $Z_1\sim N(0, 1)$ . 令 $V=\sum\limits_{i=1}^k Z_i^2$ , 则称 $V$ 是具有自由度 $k$ 的 $\chi^2$ 分布，记为 $V\sim\chi^2(k)$ .

均值和方差

$\chi^2$ 的均值 $E(V)=k$ , 方差 $Var(V)=2k$ .

$\alpha$ 分位点

$\chi^2_{k, \alpha}=F^{-1}(1-\alpha)$ , 其中 $F$ 为累积分布函数，即

P (χ 2 > χ 2 k, α = α)

$\mathcal{P}(\chi^2 > \chi^2_{k, \alpha}=\alpha)$

多项分布( Multinomial distribution )

多项分布是二项分布的推广。例如，掷一个 k 面的骰子 n 次，相当于 n 次独立试验，每一次有 k 类中的一类发生( success ), 每一类有固定的成功概率，多项分布给出不同类的成功次数的任一组合的概率。特别地，当 n=1, k=2 时，多项分布即贝努利( Bernoulli )分布；当 n>1, k=2 时，即二项( Binomial )分布。

定义3.6 设有 n 次试验，每次试验有 k 个可能的互斥结果，发生的概率分别为 $p_1, p_2, \dots, p_k$ . 则 $\sum\limits_{i=1}^k p_i =1,\, p_i \ge 0, i=1,2,\dots,k$ . 令 $X_j$ 表示第 j 类结果在 n 次试验中发生的次数，令 $\mathbf{X}=(X_1,X_2,\dots,X_k)'$ ,
称 $\mathbf{X}$ 服从参数为 $n,\, p$ 的多项分布。
显然， $\sum\limits_{j=1}^k X_j =n$ , 说明 $X_1,X_2,\dots,X_k$ 之间不独立。

概率分布列

f (x 1, x 2, \dots, x k; p 1, p 2, \dots, p k) = P (X 1 = x 1, X 2 = x 2, \dots, X k = x k)

$f(x_1,x_2,\dots,x_k;\,p_1,p_2,\dots,p_k)=\mathcal{P}(X_1=x_1,X_2=x_2,\dots,X_k=x_k)$

= n ! x 1 ! x 2 ! \dots x k ! p x 1 1 p x 2 2 \dots p x k k

$=\dfrac{n!}{x_1!x_2!\cdots x_k!}p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k}$

= Γ ( \sum j = 1 n x j + 1 ) \prod i = 1 k Γ ( x i + 1 ) \prod i = 1 k p x i i

$=\dfrac{\Gamma(\sum\limits_{j=1}^n x_j +1)}{\prod\limits_{i=1}^{k}\Gamma(x_i +1)} \prod\limits_{i=1}^{k}p_i^{x_i}$

均值和协方差

$E(X_i)=n p_i$ , $Var(X_i)=n p_i (1- p_i)$ , $cov(X_i, X_j)=-n p_i p_j$ , 令
$p=(p_1, p_2, \dots, p_k)'$ , 矩阵表示为

E (X) = n p

$E(\mathbf{X})=n p$

c o v (X, X) = n {d i a g (p) - p p'}

$cov(\mathbf{X}, \mathbf{X})=n \{ diag(p)-p p' \}$

$\chi^2$ 检验

设 $\mathbf{X}=(X_1, X_2, \dots, X_k)'\sim multinomial(n,\,p)$ , 则 $p$ 的最大似然估计
$\hat{p}=(\hat{p}_1, \hat{p}_2, \dots, \hat{p}_k)'=(\frac{x_1}{n}, \frac{x_2}{n}, \dots, \frac{x_k}{n})'$ . 检验

H 0 : p = p 0 = (p 01, p 02, \dots, p 0 k)' H 1 : p \neq p 0

$H_0 : \, p=p_0=(p_{01},p_{02},\dots,p_{0k})'\qquad H_1 : \, p \ne p_0$

令 Pearson’s $chi^2$ 统计量

T n = \sum j = 1 k ( X j - n p 0 j ) 2 n p 0 j = \sum j = 1 k ( X j - E j ) 2 E j

$T_n=\sum\limits_{j=1}^k \dfrac{(X_j-n \,p_{0j})^2}{n \,p_{0j}} =\sum\limits_{j=1}^k \dfrac{(X_j-E_j)^2}{E_j}$

在 $H_0$ 下， $E_j=E(X_j)=n\, p_{0j}$

定理3.4 在 $H_0$ 下， $T_n\xrightarrow{d}\chi^2_{k-1}$ . 那么，给定渐近水平 $\alpha$ ,
拒绝域 $\{ T_n> \chi^2_{k-1, \alpha} \}$

置换检验

置换检验( Permutation Test )是一种非参数的方法，主要检验两个分布是否相同。也称随机化检验 ( randomization test )或精确检验( exact test ). 假设 $x_1, x_2, \dots, x_m\sim F_X$ , $y_1, y_2, \dots, y_n\sim F_Y$ , 检验

H 0 : F X = F Y H 1 : F X \neq F Y

$H_0 : \,\, F_X = F_Y \qquad H_1 : \,\, F_X \ne F_Y$
令统计量

T=T(x1,x2,…,xm;y1,y2,…,yn) $T=T(x_1, x_2, \dots, x_m; y_1, y_2, \dots, y_n)$ , 例如，

T=|x¯m−y¯n| $T=|\bar{x}_m - \bar{y}_n|$ ,
令

N=m+n $N=m+n$ , 考虑混合样

x1,x2,…,xm;y1,y2,…,yn $x_1, x_2, \dots, x_m; y_1, y_2, \dots, y_n$ 的所有

N! $N!$ 个排列，
每一个排列，计算一个

T $T$ , 得

T1,T2,…,TN! $T_1, T_2, \dots, T_{N!}$ , 定义置换分布

P H 0 (T = T j) = 1 N !, j = 1, 2, \dots, N!

$\mathcal{P}_{H_0}(T=T_j)=\dfrac{1}{N!},\, j=1,2,\dots,N!$

p - v a l u e = P H 0 (T > t o b s) = 1 N ! \sum j = 1 N! I (T j > t o b s)

$p-value=\mathcal{P}_{H_0}(T>t_{obs})=\dfrac{1}{N!}\sum\limits_{j=1}^{N!}I(T_j>t_{obs})$
实际上，置换

B $B$ 次而不是

N! $N!$ 次。

p - v a l u e = 1 B \sum j = 1 B I (T j > t o b s)

$p-value=\dfrac{1}{B}\sum\limits_{j=1}^{B}I(T_j>t_{obs})$

似然比检验

H 0 : θ \in Ⓢ 0 H 1 : θ \notin Ⓢ 0 Ⓢ 0 \subset Ⓢ

$H_0 : \,\, \theta\in\circledS_0\qquad H_1 : \,\, \theta \notin\circledS_0\qquad\circledS_0\subset\circledS$

令似然比统计量

λ = 2 log s u p θ \in Ⓢ L ( θ ) s u p θ \in Ⓢ 0 L ( θ ) = 2 log L ( θ ^ ) L ( θ ^ 0 )

$\lambda=2\log \dfrac{\mathop{sup}\limits_{\theta\in\circledS}L(\theta)} {\mathop{sup}\limits_{\theta\in\circledS_0}L(\theta)}= 2\log \dfrac{L(\hat{\theta})}{L(\hat{\theta}_0)}$

$\hat{\theta}$ 是 $\theta$ 的最大似然估计， $\theta\in\circledS$ ; $\hat{\theta}_0$ 是 $\theta$ 的最大似然估计 $\theta\in\circledS_0$ .

定理3.5 设 $\theta=(\theta_1, \theta_2, \dots, \theta_{q+1},\dots, \theta_r)$ , 令 $\circledS_0=\{ \theta : (\theta_{q+1},\dots, \theta_r)=(\theta_{0,\,q+1},\dots, \theta_{0,\,r})\}$ . 令 $\lambda$ 是似然比统计量，在 $H_0 : \, \theta\in\circledS_0$ 下，

λ (x) - \to d χ 2 r - q, α

$\lambda(x) \xrightarrow{d} \chi^2_{r-q,\,\alpha}$

p - v a l u e = P H 0 (χ 2 r - q > λ)

$p-value=\mathcal{P}_{H_0}(\chi^2_{r-q}>\lambda)$

其中， $r-q=dim(\circledS)-dim(\circledS_0)$ .

阅读更多精彩内容，请关注微信公众号“统计学习与大数据”！