All of Statistics 第五章

本章内容

  • 5.1 引言
  • 5.2 收敛的类型
  • 5.3 大数定律(The Law of Large Numbers)
  • 5.4 中心极限定理(The Central Limit Theorem)
  • 5.5 Delta方法

关键名词,存在部分词不达意的情况,因此将关键名词整理如下

1. 大数定律:The Law of Large Numbers

2. 中心极限定理:The Central Limit Theorem

3. 大样本理论:large sample theory

4. 极限理论:limit Theory

5. 渐进理论:asymptotic theory

6. 斯卢茨基定理:Slutzky's theorem

7. 弱大数定理:The Weak Law of Large Numbers(WLLN)

8. 多元中心极限定理:Multivariate central limit theorem

5.1 引言

概率论中最关心的一个方面就是随机变量序列的行为。概率论的这部分被称为,大样本理论(large sample theory)或者极限理论(limit Theory)或者渐进理论(asymptotic theory).最基本的问题就是:随机变量序列 X1,X2,...的极限行为是什么?因为统计学和数据挖掘都要收集数据,自然而然的我们就会想,当收集的数据越来越多,将会发生什么。

扫描二维码关注公众号,回复: 16941833 查看本文章

在微积分中,如果任意\varepsilon >0,存在一个大于n的数,使得|x_n-x|<\varepsilon成立。我们就说x_n收敛于x,这个x就是x_n的极限。在概率论中,收敛就变得有些微妙了。先暂时回到微积分中,假如对于所有的n来说,都有x_n=x,那么,显然lim_{n\rightarrow \infty}x_n=x.那么我们来思考思考这个例子的概模型。假如X1,X2....是随机变量序列,他们是独立的,且都符合N(0,1)分布。由于这些随机变量都有相同的分布,因此我们可以说Xn收敛于X,X服从正态分布X\sim N(0,1)。但是这又不是十分精确的,因为所有的n来讲\mathbb{P}(Xn=X)=0(两个连续的随机变量相等的概率为0)

此处有另外一个例子。考虑X1,X2,...其中Xi服从X_i \sim N(0,1/n)分布。直观上,当n变大时,Xn集中在0附近,因此我们可以说Xn趋向于0。但是对于所有的n来讲\mathbb{P}(X_n=0)=0.显然我们需要开发一种工具,以更严格的方式来讨论这种收敛。本章就来开发这种合适的方法。

本章有两种主要的观点,非正式的陈述如下:

  1. 大数定律(the law of large numbers)表明:样本均值(sample average \bar{X}_n=n^{-1}\Sigma X_i)收敛于期望\mu = \mathbb{E}(X_i)这就意味着\bar{X}_n以很高的概率接近于μ
  2. 中心极限定理(the central limit theorem)表明:\sqrt{n}(\bar{X}_n-\mu)在分布上收敛于正态分布。这就意味着当n足够大时,样本均值服从正态分布

5.2 收敛的类型

两种主要的收敛类型被定义如下:

5.1 定义

令X1,X2...是随机变量序列,X是另外的随机变量。再令F_n是Xn的CDF,F是X的CDF。

  1. 对于任意\varepsilon > 0,当n \to \infty时,有\mathbb{P}(|X_n-X|>\varepsilon) \to 0.则称Xn在概率上收敛于X,记作X_n \overset{P}{\to} X
  2. 如果对于所有t来讲,存在\underset{n\to\infty}{\lim}F_n(t) =F(t),其中F是连续函数,则称Xn在分布上收敛于X,记作

当限制随机变量服从点质量分布时,我们稍微改变一下写法。如果\mathbb{P}(X=c) = 1,且X_n \overset p \to X,那么我们可以写成X_n \overset P \to c.类似的我们还可以写成

还要再介绍另一种收敛类型,引入它主要是因为它对于证明概率收敛非常有用。t \neq 0

5.2 定义

如果,当n \to \infty时,\mathbb{E}(X_n-X)^2 \to 0,则称Xn在均方下收敛于X。记作X_n \overset{qm} \to X

同样,如果X服从点质量分布时,则可以将其写成Xn \overset {qm} \to c

5.3 例子

X_n \sim N(0,1/n).直观上,Xn渐渐聚集于0附近。因此我们可以说Xn收敛于0.现在让我们来看看它是否正确。令F是在0处的点质量分布函数。注意到\sqrt{n}X_n\sim N(0,1),Z为标准正态随机变量。对于t<0,有F_n(t) = \mathbb{P}(X_n<t) = \mathbb{P}(\sqrt nX_n < \sqrt n t) = \mathbb{P}(Z < \sqrt n t) \to 0,因为\sqrt n t \to - \infty.而对于t>0,有F_n(t)=\mathbb{P}(X_n < t)= \mathbb{P}(\sqrt n X_n < \sqrt n t) = \mathbb{P}(Z < \sqrt n t) \to 1,因为\sqrt n t \to \infty

因此对于t \neq 0,有F_n(t) \to F(t).所以Xn再分布上收敛于0.

注意,F_n(0)=1/2 \neq F(0)=1,因此在t=0处,收敛不成立。这并不重要,因为 t = 0 不是 F 的连续点,而在分布收敛的定义中,只要求在连续点处的收敛。见下图

现在来思考在概率上的收敛。对于任意\varepsilon > 0,当n \to \infty,使用马尔可夫不等式(Markov's inequality)得

\mathbb{P}(|X_n|>\varepsilon) =\mathbb{P}(|X_n|^2-\varepsilon^2) \leq \frac{\mathbb{E}(Xn^2)}{\varepsilon^2}=\frac{\frac{1}{n}}{\varepsilon^2}\to 0

因此Xn在概率上收敛于0.X_n \overset{P} \to 0

下面的定理,给出了两个收敛类型的关系。结果总结在下图

5.4 定理

如下关系成立

  1. X_n \overset{qm} \to X隐含X_n \overset{P} \to X
  2. X_n \overset{P} \to X隐含Xn在分布上收敛于X,
  3. 如果Xn在分布上收敛于X,且\mathbb{P}(X=c)=1,那么Xn在概率上收敛于X,X_n \overset{P} \to X

通常情况下,除了第三点以外,反向并不成立。

证明,从证明第一点开始。假定X_n \overset{qm} \to X,对于固定的\varepsilon > 0.那么使用马尔可夫不等式

\mathbb{P}(|X_n-X| >< \varepsilon) = \mathbb{P}(|X_n-X|^2>\varepsilon^2) \leq \frac{\mathbb{E}(|X_n-X|^2)}{\varepsilon^2} \to 0

证明第二点。这个证明有点复杂,如果你不想看的话,可以跳过。固定\varepsilon > 0,令x为F的连续点。那么

F_n(x)

          =\mathbb{P}(X_n < x)\\\\ =\mathbb{P}(X_n\leq x,X \leq x + \varepsilon)+\mathbb{P}(X_n \leq x,X > x+\varepsilon) \\\\ \leq \mathbb{P}(X \leq x+\varepsilon) + \mathbb{P}(|X_n - X| > \varepsilon)\\\\ =F(x+\varepsilon)+\mathbb{P}(|X_n-X| > \varepsilon)

同时,

F(x-\varepsilon)

    =\mathbb{P}(X \leq x -\varepsilon) =\mathbb{P}(X \leq x -\varepsilon,X_n \leq x )+\mathbb{P}(X \leq x -\varepsilon,X_n > x)\\\\ \leq Fn(x)+\mathbb{P}(|X_n-X| > \varepsilon)

因此,

F(x-\varepsilon) - \mathbb{P}(|X_n-X| > \varepsilon) \leq F_n(x) \leq F(x+\varepsilon) +\mathbb{P}(|X_n-X| > \varepsilon)

取极限n \to \infty得,F(x-\varepsilon) \leq \underset{n\to \infty }\lim inf F_n(x) \leq \underset{n\to \infty }\lim sup F_n(x) \leq F(x+\varepsilon)

上市对于所有\varepsilon > 0都成立,对上式\varepsilon \to 0取极限,且F在x处连续得\lim_n F_n(x)=F(x)

证明第三点。固定\varepsilon > 0,那么

\mathbb{P}(|X_n-c| > \varepsilon)

    =\mathbb{P}(X_n < c-\varepsilon)+\mathbb{P}(X_n > c+ \varepsilon)\\\\ \leq \mathbb{P}(X_n < c-\varepsilon)+\mathbb{P}(X_n > c+ \varepsilon)\\\\ =F_n(c-\varepsilon)+1-F_n(c+\varepsilon)\\\\ \to F(c-\varepsilon)+1-F(c+\varepsilon)\\\\ =0+1-1=0

现在让我们来证明反方向不成立。

在概率上收敛并不意味着在均方下收敛:令U \sim Unif(0,1),再令X_n =\sqrt{n}I_{(0,1/n)}(U),那么

\mathbb{P}(|X_n| > \varepsilon) = \mathbb{P}(\sqrt n I_{(0,1/n)}(U) > \varepsilon) = \mathbb{P}(0 \leq U < 1/n) = 1/n \to 0.因此X_n \overset{P} \to 0,但是对于所有n来说,\mathbb{E}(X_n^2)=n\int_0^1du=1,所以Xn不会在均方下收敛。

在分布上收敛并不意味着在概率上收敛:令X \sim N(0,1),X_n =-X,其中n=1,2,3....因此X_n \sim N(0,1).对于所有的n来讲,Xn和X有相同的分布函数。因此,对于所有的x\lim _n F_n(x) = F(x),所以Xn在分布上收敛于X。但是\mathbb{P}(|X_n-X| > \epsilon) = \mathbb{P}(|2X| > \epsilon) = \mathbb{P}(|X| > \epsilon/2) \neq 0。所以Xn在概率上并不收敛于X

警告:有人可能会认为如果X_n \overset{P} \to b,那么\mathbb{E}(X_n) \to b,这是不正确的。令X是概率为\mathbb{P}(X_n=n^2)=1/n\mathbb{P}(X_n=0) = 1-(1/n)的随机变量.现在,\mathbb{P}(|X_n| < \varepsilon) = \mathbb{P}(X_n = 0) =1-(1/n) \to 1.因此,X_n \overset{P} \to 0.但是,\mathbb{E}(X_n) = [n^2\times(1/n)]+[0\times (1-(1/n))] = n,因此\mathbb{E}(X_n) \to \infty

5.5 定理

令Xn,X,Yn,Y是随机变量,设g是一个连续函数

  1. 如果X_n \overset{P} \to X,且Y_n \overset{P} \to Y,那么X_n+Y_n \overset{P} \to X+Y
  2. 如果X_n \overset{qm} \to X,且Y_n \overset{qm} \to Y,那么X_n+Y_n \overset{qm} \to X+Y
  3. 如果Xn在分布上收敛于X,Yn在分布上收敛于c,那么Xn+Yn在分布上收敛于X+c
  4. 如果X_n \overset{P} \to X,且Y_n \overset{P} \to Y,那么X_nY_n\overset{P}\to XY
  5. 如果Xn在分布上收敛于X,Yn在分布上收敛于c,那么XnYn在分布上收敛于cX
  6. 如果X_n \overset{P} \to X,那么g(X_n) \overset{P} \to g(X)
  7. 如果Xn在分布上收敛于X,那么g(Xn)在分布上收敛于g(X)

其中3-5就是斯卢茨基定理(Slutzky's theorem).值得注意的是,Xn在分布上收敛于X,Yn在分布上收敛于Y,并不能得出Xn+Yn在分布上收敛于X+Y

5.3 大数定律

现在我们来到了概率论中的巅峰成就——大数定律(The Law of Large Numbers).这个理论表明,大量样本的平均值接近于分布的均值。例如,大量抛硬币,正面朝上的比例接近于1/2。现在让我们来更加精确的描述它。

设X1,X2...是独立同分布样本,在设\mu =\mathbb{E}(X_1),\sigma^2=\mathbb{V}(X_1).回忆一下,样本均值为:\bar{X}_n=n^{-1}\Sigma X_i\mathbb{E}(\bar{X}_n) = \mu;\mathbb{V}(\bar{X}_ n)= \sigma^2/n

5.6 定理

弱大数定理(The Weak Law of Large Numbers)(WLLN)

如果X1,X2...Xn是独立同分布,那么\bar{X}_n \overset{P} \to \mu

WLLN(大数定律)的解释:随着 n 的增大,Xn 的分布逐渐集中在 μ周围。

证明:假定\sigma < \infty,这个假设不是必须的,但是它简化了证明。使用切比雪夫不等式得:

\mathbb{P}(|\bar{X}_n-\mu| > \varepsilon) \leq \frac{\mathbb{V}(\bar{X}_n)}{\varepsilon^2}=\frac{\sigma^2}{n\varepsilon^2}.当n趋于无穷时,该式趋于0.

5.7 例子

考虑抛掷一枚硬币,其中正面出现的概率为 p。令Xi为单次抛掷的结果(0,1).因此p=\mathbb{P}(X_i=1)=E(X_i).n此抛掷之后的正面朝上的比例为:\bar{X}_n.根据大数定律,\bar{X}_n在概率上收敛于p。这并不意味着\bar{X}_n在数值上等于p。它仅意味着,当n足够大时,\bar{X}_n的分布紧紧围绕在p周围。假如p=1/2,那么多大的n,可以让\mathbb{P}(0.4 \leq \bar{X}_n \leq 0.6) \geq 0.7.首先,\mathbb{E}(\bar{X}_n) = p = 1/2,且\mathbb{V}(\bar{X}_n)=\sigma^2/n=p(1-p)/n=1/(4n),由切比雪夫不等式得:

\mathbb{P}(0.4 \leq \bar{X}_n \leq 0.6)

=\mathbb{P}(|\bar{X}_n-\mu| \leq 0.1)\\\\ =1-\mathbb{P}(|\bar{X}_n-\mu| > 0.1)\\\\ \geq 1-\frac{1}{4n(0.1)^2}\\\\ =1-\frac{25}{n}

得,如果n=84,那么表达式将会大于0.7

5.4 中心极限定理

大数定律表明,\bar{X}_n的分布聚集在\mu附近。它并不能帮助我们陈述\bar{X}_n的概率性质,为此我们还需要中心极限定理。

假定X1,...Xn是独立同分布,均值为\mu,方差为\sigma^2.中心极限定理(CLT)表明:\bar{X}_n的分布近似于均值为\mu,方差为\sigma^2/n的正态分布。该定理非常引入瞩目,因为它除了要求存在均值和方差以外,再也没有其他要求了。

5.8 定理

中心极限定理(The Central Limit Theorem (CLT))。令X1,...Xn是均值为\mu,方差为\sigma^2的独立同分布。设\bar{X}_n=n^{-1}\Sigma_{i=1}^nX_i.那么

Z_n=\frac{\bar{X}_n-\mu}{\sqrt{\mathbb{V}(\bar{X}_n)}}=\frac{\sqrt n(\bar{X}_n-\mu)}{\sigma}在分布上收敛于Z(正态分布)

换句话说,\underset {n\to \infty }\lim \mathbb{P}(Z_n \leq z) = \Phi(z) = \int _{-\infty}^z \frac{1}{\sqrt{2\pi}}e^{-x^2/2}dx

解释:关于 Xn 的概率状态可以使用正态分布来近似。我们在近似的是概率状态,而不是随机变量本身。

除了,Zn在分布上收敛于N(0,1)以外,还有如下的几种格式,用来表示Zn的分布收敛于正态。他们都表示相同的事情。

5.9 例子

假如每分钟,程序的错误数服从均值为5的泊松分布。现有125个程序。令X1,...X125是这些程序的错误数。我们想要求\mathbb{P}(\bar{X}_n < 5.5)

\mu = E(X_1) = \lambda = 5,\sigma^2 = \mathbb{V}(X_1) = \lambda =5.那么\mathbb{P}(\bar{X}_n < 5.5 ) = \mathbb{P}(\frac{\sqrt n (\bar{X}_n - \mu)}{\sigma} < \frac{\sqrt n (5.5 - \mu)}{\sigma} ) \approx \mathbb{P}(Z < 2.5) = 0.9938

中心极限定理告诉我们,Z_n=\sqrt n (\bar{X}_n-\mu)/\sigma近似于N(0,1).但,我们却很少知道\sigma.在后面我们将通过如下的方式,来估算\sigma

S_n^2=\frac{1}{n-1}\overset{n}{\underset {i=1}\Sigma}(X_i-\bar{X}_n)^2

这会导致下面的问题:如果我们用S_n^2来代替\sigma,中心极限定理还成立吗?答案是:yes

5.10 定理

假设跟CLT相同的条件,那么

\frac{\sqrt n (\bar{X}_n -\mu)}{S_n} \sim N(0,1)

你可能会好奇,这个正态近似的精度有多少?答案将在Berry-Esseen定理中给出

5.11 定理(The Berry-Esseen 不等式)

假定\mathbb{E}|X_1|^3 < \infty.那么\underset z {sup}|\mathbb{P}(Z_n<z)-\Phi(z)| \leq \frac{33}{4}\frac{\mathbb{E}|X_1 - \mu|^3}{\sqrt n\sigma ^3}

中心极限定理,也存在一个多元的版本

5.12 定理(多元中心极限定理(Multivariate central limit theorem))

令X1,...Xn是独立同分布的向量,其中Xi为:

X_i=\begin{pmatrix} X_{1i}\\ X_{2i}\\ \vdots\\ X_{ki} \end{pmatrix}

均值μ为:

\mu=\begin{pmatrix} \mu_1\\ \mu_2\\ \vdots \\ \mu_k \end{pmatrix}=\begin{pmatrix} \mathbb{E}(X_{1i})\\ \mathbb{E}(X_{2i})\\ \vdots \\ \mathbb{E}(X_{ki}) \end{pmatrix}

方差矩阵Σ。

\bar{X} = \begin{pmatrix} \bar{X}_1\\ \bar{X}_2\\ \vdots\\ \bar{X}_k \end{pmatrix},其中\bar{X}_j=n^{-1}\overset n {\underset {i=1}\Sigma }X_{ji}.那么\sqrt n(\bar{X} -\mu)在概率上收敛于N(0,\Sigma)

5.5 Delta 方法

如果Yn的极限分布为正态分布,那么Delta方法提供了求g(Y_n)的极限分布的方法,其中函数g是任一连续函数。

5.13 定理(Delta 方法)

假定:\frac{\sqrt n (Y_n -\mu)}{\sigma}在分布上收敛于N(0,1),且g是一个可微函数,那么\frac{\sqrt n( g(Y_n) - g(\mu))}{|g'(\mu)|\sigma}在分布上收敛于N(0,1).

换句话说,Y_n \approx N(\mu,\frac{\sigma^2}{n}),隐含g(Y_n) \approx N(g(\mu),(g'(\mu))^2\ \frac{\sigma^2}{n})

5.14 例子

设X1,..Xn是有限均值为μ,有限方差为σ的独立同分布。根据中心极限定理得\sqrt n (\bar X_n -\mu )/\sigma在分布上收敛于N(0,1).令W_n=e^{\bar X_n}.因此W_n=g(\bar X_n),其中g(s)=e^s.因为g'(s)=e^s.根据Delta方法得W_n \approx N(e^\mu,e^{2\mu}\sigma^2/n)

Delta方法也有一个多元版本

5.15 定理

Y_n=(Y_{n1},...Y_{nk})是满足下面的随机向量序列:

\sqrt n (Y_n -\mu )在概率上收敛于N(0,\Sigma)

g:\mathbb{R}^k \to \mathbb{R},且

\triangledown g(y)=\begin{pmatrix} \frac{\partial g}{\partial y_1}\\ \vdots\\ \frac{\partial g}{\partial y_K} \end{pmatrix}

\triangledown _\mu\triangledown g(y)y=\mu处的值,且\triangledown _\mu的元素都不为0。那么

\sqrt n (g(Y_n)-g(\mu))在分布上收敛于N(0,\triangledown _\mu^T\Sigma\triangledown _\mu)

5.16 例子

\begin{pmatrix} X_{11}\\ X_{21} \end{pmatrix},\begin{pmatrix} X_{12}\\ X_{22} \end{pmatrix},\dots, \begin{pmatrix} X_{1n}\\ X_{2n} \end{pmatrix}是均值为\mu=(\mu_1,\mu_2)^T,方差为Σ的IID随机向量。令\bar X_1 = \frac{1}{n}\overset n {\underset{i=1}\Sigma}X_{1i}\bar X_2 = \frac{1}{n}\overset n {\underset{i=1}\Sigma}X_{2i},并定义Y_n=\bar X_1 \bar X_2.因此Y_n=g(\bar X_1,\bar X_2)其中,g(s_1,s_2)=s_1s_2.根据中心极限定理

\sqrt n \begin{pmatrix} \bar X_1 - \mu_1\\ \bar X_2 - \mu_2 \end{pmatrix}在分布上收敛于N(0,Σ)

现在\triangledown g(s)=\begin{pmatrix} \frac{\partial g}{\partial s_1}\\ \frac{\partial g}{\partial s_2} \end{pmatrix}=\begin{pmatrix} s_2\\ s_1 \end{pmatrix},并且\triangledown_\mu^T\Sigma\triangledown_\mu=(\mu_2\ \ \mu_1)\begin{pmatrix} \sigma_{11} & \sigma_{12}\\ \sigma_{21} & \sigma_{22} \end{pmatrix}\begin{pmatrix} \mu_2\\ \mu_1 \end{pmatrix}=\mu_2^2\sigma_{11}+2\mu_1\mu_2\sigma_{12}+\mu_1^2\sigma_{22}

因此\sqrt n (\bar X_1 \bar X_2 - \mu_1\mu_2)在分布上收敛于N(0,\mu_2^2\sigma_{11}+2\mu_1\mu_2\sigma_{12}+\mu_1^2\sigma_{22})

本章完

未翻译:文献注释,附录,课后作业

猜你喜欢

转载自blog.csdn.net/xiaowanbiao123/article/details/133301048
今日推荐