All of Statistics 第四章

本章内容:

  • 4.1 概率不等式
  • 4.2 期望不等式

关键名词,存在部分词不达意的情况,因此将关键名词整理如下

1. 不等式:Inequalities

2. 马尔可夫不等式:Markov's Inequality

3. 切比雪夫不等式:Chebyshev's Inequality

4. 赫夫丁不等式:Hoeffding's inequality

5. 置信区间:Confidence Interval

6. 柯西-施瓦茨不等式:Cauchy-Schwartz inequality

7. 米尔不等式:Mill's Inequality

8. 詹森不等式:Jensen's inequality

4.1 概率不等式

扫描二维码关注公众号,回复: 16941836 查看本文章

不等式对于那些可能难以计算的量比较有用,它可以用于限定上下限。它还会用在下一章的收敛理论。我们的第一个不等式是马尔可夫不等式(Markov's Inequalities)

4.1 定理(马尔可夫不等式)

设X是一个非负的随机变量,假定\mathbb{E}(X)存在,对于任何t>0,有:

\mathbb{P}(X>t) \leq \frac{\mathbb{E}(X)}{t}

证明:

因为X>0,所以:

\mathbb{E}(X) = \int_0^\infty xf(x)dx=\int_0^txf(x)dx+\int_t^\infty xf(x)dx \\\\ \geq \int_t^\infty x f(x)dx \geq t\int_t^\infty f(x)dx = t\mathbb{P}(X>t)

4.2 定理(切比雪夫不等式 )

\mu = \mathbb{E}(X),\sigma^2=\mathbb{V}(X),那么:

\mathbb{P}(|X-\mu| \geq t) \leq \frac{\sigma^2}{t^2},且\mathbb{P}(|Z|\geq k) \leq \frac{1}{k^2}

其中,Z=(X-\mu)/\sigma.事实上,\mathbb{P}(|Z| > 2) \leq \frac {1}{4},\mathbb{P}(|Z| > 3) \leq \frac {1}{9}

证明:

我们使用马尔可夫不等式来证明,

\mathbb{P}(|X-\mu| \geq t)=\mathbb{P}(|X-\mu|^2 \geq t^2) \leq \frac{\mathbb{E}(X-\mu)^2}{t^2}=\frac{\sigma^2}{t^2}

将t换成t=k\sigma即可得证第二个不等式

4.3 例子

假设我们在一组n个新的测试样例集上测试一个预测方法,例如神经网络。如果预测错误,令Xi = 1,如果预测正确,令Xi = 0。 那么\bar{X}_n=n^{-1}\sum _{i=1}^nX_i是观测到的错误率。每个Xi可以看作是具有未知期望p的伯努利随机变量。我们想知道真实但未知的错误率p。那么\bar{X}_n不在p的\varepsilon附近的概率有多大呢?

我们有\mathbb{V}(\bar{X}_n)=\mathbb{V}(X_1)/n=p(1-p)/n,那么:

\mathbb{P}(|\bar{X}_n-p| > \varepsilon ) \leq \frac{\mathbb{V}(\bar{X}_n)}{\varepsilon^2}=\frac{p(1-p)}{n\varepsilon^2} \leq \frac{1}{4n\varepsilon^2}

因为对于所有p,有p(1-p) \leq \frac{1}{4}.如果\varepsilon =0.2n=100,则上式上界为:0.0625

赫夫丁不等式在精神上类似于马尔可夫不等式,但它是一种更严格的不等式。我们在这里将结果分为两部分呈现。

4.4 定理(赫夫丁不等式)

设Y1..Yn是独立观测值,满足:\mathbb{E}(Y_i)=0,a_i \leq Y_i \leq b_i,设\varepsilon > 0,那么对于任意t>0,有:

\mathbb{P}(\overset{n}{\underset{i=1}{\sum}}Y_i \geq \varepsilon) \leq e^{-t\varepsilon}\overset{n}{\underset{i=1}{\prod}} e^{t^2(b_i-a_i)^2/8}

4.5 定理(赫夫丁不等式)

X_1...X_n\sim Bernoulli(p),那么对于任何\varepsilon > 0,有:

\mathbb{P}(|\bar{X}_n-p| > \varepsilon ) \leq 2e^{-2n\varepsilon^2}

其中\bar{X}_n=n^{-1}\sum_{i=1}^nX_i

4.6 例子

X_1...X_n\sim Bernoulli(p),n=100,\varepsilon = 0.2根据切比雪夫不等式得:

\mathbb{P}(|\bar{X}_n-p| > \varepsilon) \leq 0.0625

根据赫夫丁不等式得

\mathbb{P}(|\bar{X}_n-p| > 0.2) \leq 2e^{-2(100)(0.2)^2}=0.00067

赫夫丁不等式为我们提供了一种简单的方法来创建二项分布参数p的置信区间(confidence interval)。我们将在后面详细讨论置信区间(第6章),但这里是基本的思想。固定一个正数a,让

\varepsilon_n=\sqrt{\frac{1}{2n}log{\frac{2}{\alpha}}}

根据赫夫丁不等式,有

\mathbb{P}(|\bar{X}_n-p| > \varepsilon ) \leq 2e^{-2n\varepsilon^2}=\alpha

C=(\bar{X}_n-\varepsilon,\bar{X}_n+\varepsilon).那么\mathbb{P}(p \notin C ) = \mathbb{P}(|\bar{X}_n-p|>\varepsilon_n) \leq \alpha,因此\mathbb{P}(p \in C) \geq 1-\alpha.即,随机区间C以概率1 - a 包含真实的参数值p;我们称C为一个1 - a置信区间。更多内容稍后再讨论。

以下不等式对于限定与正态随机变量有关的概率状态非常有用。(需要校对)

4.7 定理(米尔不等式)

Z \sim N(0,1),那么\mathbb{P}(|Z| > t) \leq \sqrt{\frac{2}{\pi}}\frac{e^{-t^2/2}}{t}

4.2 期望不等式

这个部分包含了两个关于期望值的不等式

4.8 定理(柯西-施瓦茨不等式)

如果X和Y具有有限的方差,那么\mathbb{E}(|XY|) \leq \sqrt{\mathbb{E}(X^2)\mathbb{E}(Y^2)}

注意:下面的凹凸函数的定义和国内的教材是相反的

回忆一下:如果每个x,y,\alpha \in [0,1],满足如下,则是凸函数(Convex):

g(\alpha x+(1-\alpha)y) \leq \alpha g(x)+(1-\alpha)g(y)

如果函数g具有两阶可导性,并且对于所有的x,g"(x) ≥ 0,则函数g是凸函数。可以证明,如果函数g是凸函数,那么g位于任何切线的上方。如果函数g是凹函数,那么-g就是凸函数。凸函数的示例包括 g(x) = x^2 和 g(x) = e^x。凹函数的示例包括 g(x) = -x^2 和 g(x) = log(x)。

4.9 定理(詹森不等式)

如果g是凸函数,那么\mathbb{E}g(X) \geq g(\mathbb{E}X).如果g是凹函数,那么\mathbb{E}g(X) \leq g(\mathbb{E}X)

证明:令L(x)=a+bx 是一条与 g(x) 在点 \mathbb{E}(X)处相切的直线.因为g是凸函数,他在直线L(x)的上方,所以:

\mathbb{E}g(X) \geq \mathbb{E}L(X)=\mathbb{E}(a+bx) = a + b\mathbb{E}(X)=L(\mathbb{E}(X))=g(\mathbb{E}X)

根据詹森不等式得\mathbb{E}(X^2) \geq (\mathbb{E}X)^2.如果X是正数,那么\mathbb{E}(1/X) \geq 1/\mathbb{E}(X).因为log是凹函数,那么\mathbb{E}(logX) \leq log\mathbb{E}(X) 

本章完

未翻译:参考文献,附录,课后作业

猜你喜欢

转载自blog.csdn.net/xiaowanbiao123/article/details/133099466
今日推荐