All of Statistics 第四章

本章内容：

4.1 概率不等式
4.2 期望不等式

关键名词,存在部分词不达意的情况,因此将关键名词整理如下

1. 不等式：Inequalities

2. 马尔可夫不等式：Markov's Inequality

3. 切比雪夫不等式：Chebyshev's Inequality

4. 赫夫丁不等式：Hoeffding's inequality

5. 置信区间：Confidence Interval

6. 柯西-施瓦茨不等式：Cauchy-Schwartz inequality

7. 米尔不等式：Mill's Inequality

8. 詹森不等式：Jensen's inequality

4.1 概率不等式

扫描二维码关注公众号，回复： 16941836 查看本文章

不等式对于那些可能难以计算的量比较有用，它可以用于限定上下限。它还会用在下一章的收敛理论。我们的第一个不等式是马尔可夫不等式(Markov's Inequalities)

4.1 定理(马尔可夫不等式）

设X是一个非负的随机变量，假定 $\mathbb{E}(X)$ 存在，对于任何t>0，有：

$\mathbb{P}(X>t) \leq \frac{\mathbb{E}(X)}{t}$

证明：

因为X>0,所以：

$\mathbb{E}(X) = \int_0^\infty xf(x)dx=\int_0^txf(x)dx+\int_t^\infty xf(x)dx \\\\ \geq \int_t^\infty x f(x)dx \geq t\int_t^\infty f(x)dx = t\mathbb{P}(X>t)$

4.2 定理（切比雪夫不等式 )

设 $\mu = \mathbb{E}(X)$ , $\sigma^2=\mathbb{V}(X)$ ,那么：

$\mathbb{P}(|X-\mu| \geq t) \leq \frac{\sigma^2}{t^2}$ ,且 $\mathbb{P}(|Z|\geq k) \leq \frac{1}{k^2}$

其中， $Z=(X-\mu)/\sigma$ .事实上， $\mathbb{P}(|Z| > 2) \leq \frac {1}{4}$ , $\mathbb{P}(|Z| > 3) \leq \frac {1}{9}$

证明：

我们使用马尔可夫不等式来证明，

$\mathbb{P}(|X-\mu| \geq t)=\mathbb{P}(|X-\mu|^2 \geq t^2) \leq \frac{\mathbb{E}(X-\mu)^2}{t^2}=\frac{\sigma^2}{t^2}$

将t换成 $t=k\sigma$ 即可得证第二个不等式

4.3 例子

假设我们在一组n个新的测试样例集上测试一个预测方法，例如神经网络。如果预测错误，令Xi = 1，如果预测正确，令Xi = 0。那么 $\bar{X}_n=n^{-1}\sum _{i=1}^nX_i$ 是观测到的错误率。每个Xi可以看作是具有未知期望p的伯努利随机变量。我们想知道真实但未知的错误率p。那么 $\bar{X}_n$ 不在p的 $\varepsilon$ 附近的概率有多大呢?

我们有 $\mathbb{V}(\bar{X}_n)=\mathbb{V}(X_1)/n=p(1-p)/n$ ,那么：

$\mathbb{P}(|\bar{X}_n-p| > \varepsilon ) \leq \frac{\mathbb{V}(\bar{X}_n)}{\varepsilon^2}=\frac{p(1-p)}{n\varepsilon^2} \leq \frac{1}{4n\varepsilon^2}$

因为对于所有p，有 $p(1-p) \leq \frac{1}{4}$ .如果 $\varepsilon =0.2$ ， $n=100$ ，则上式上界为：0.0625

赫夫丁不等式在精神上类似于马尔可夫不等式，但它是一种更严格的不等式。我们在这里将结果分为两部分呈现。

4.4 定理（赫夫丁不等式）

设Y1..Yn是独立观测值，满足： $\mathbb{E}(Y_i)=0$ , $a_i \leq Y_i \leq b_i$ ,设 $\varepsilon > 0$ ,那么对于任意t>0,有：

$\mathbb{P}(\overset{n}{\underset{i=1}{\sum}}Y_i \geq \varepsilon) \leq e^{-t\varepsilon}\overset{n}{\underset{i=1}{\prod}} e^{t^2(b_i-a_i)^2/8}$

4.5 定理(赫夫丁不等式）

设 $X_1...X_n\sim Bernoulli(p)$ ,那么对于任何 $\varepsilon > 0$ ,有：

$\mathbb{P}(|\bar{X}_n-p| > \varepsilon ) \leq 2e^{-2n\varepsilon^2}$

其中 $\bar{X}_n=n^{-1}\sum_{i=1}^nX_i$

4.6 例子

设 $X_1...X_n\sim Bernoulli(p)$ ，n=100, $\varepsilon = 0.2$ 根据切比雪夫不等式得：

$\mathbb{P}(|\bar{X}_n-p| > \varepsilon) \leq 0.0625$

根据赫夫丁不等式得

$\mathbb{P}(|\bar{X}_n-p| > 0.2) \leq 2e^{-2(100)(0.2)^2}=0.00067$

赫夫丁不等式为我们提供了一种简单的方法来创建二项分布参数p的置信区间(confidence interval)。我们将在后面详细讨论置信区间（第6章），但这里是基本的思想。固定一个正数a，让

$\varepsilon_n=\sqrt{\frac{1}{2n}log{\frac{2}{\alpha}}}$

根据赫夫丁不等式，有

$\mathbb{P}(|\bar{X}_n-p| > \varepsilon ) \leq 2e^{-2n\varepsilon^2}=\alpha$

令 $C=(\bar{X}_n-\varepsilon,\bar{X}_n+\varepsilon)$ .那么 $\mathbb{P}(p \notin C ) = \mathbb{P}(|\bar{X}_n-p|>\varepsilon_n) \leq \alpha$ ,因此 $\mathbb{P}(p \in C) \geq 1-\alpha$ .即，随机区间C以概率1 - a 包含真实的参数值p；我们称C为一个1 - a置信区间。更多内容稍后再讨论。

以下不等式对于限定与正态随机变量有关的概率状态非常有用。（需要校对）

4.7 定理（米尔不等式）

设 $Z \sim N(0,1)$ ,那么 $\mathbb{P}(|Z| > t) \leq \sqrt{\frac{2}{\pi}}\frac{e^{-t^2/2}}{t}$

4.2 期望不等式

这个部分包含了两个关于期望值的不等式

4.8 定理（柯西-施瓦茨不等式）

如果X和Y具有有限的方差，那么 $\mathbb{E}(|XY|) \leq \sqrt{\mathbb{E}(X^2)\mathbb{E}(Y^2)}$

注意：下面的凹凸函数的定义和国内的教材是相反的

回忆一下：如果每个x，y， $\alpha \in [0,1]$ ,满足如下，则是凸函数（Convex）：

$g(\alpha x+(1-\alpha)y) \leq \alpha g(x)+(1-\alpha)g(y)$

如果函数g具有两阶可导性，并且对于所有的x，g"(x) ≥ 0，则函数g是凸函数。可以证明，如果函数g是凸函数，那么g位于任何切线的上方。如果函数g是凹函数，那么-g就是凸函数。凸函数的示例包括 g(x) = x^2 和 g(x) = e^x。凹函数的示例包括 g(x) = -x^2 和 g(x) = log(x)。

4.9 定理(詹森不等式）

如果g是凸函数，那么 $\mathbb{E}g(X) \geq g(\mathbb{E}X)$ .如果g是凹函数，那么 $\mathbb{E}g(X) \leq g(\mathbb{E}X)$

证明：令 $L(x)=a+bx$ 是一条与 g(x) 在点 $\mathbb{E}(X)$ 处相切的直线.因为g是凸函数，他在直线L(x)的上方，所以：

$\mathbb{E}g(X) \geq \mathbb{E}L(X)=\mathbb{E}(a+bx) = a + b\mathbb{E}(X)=L(\mathbb{E}(X))=g(\mathbb{E}X)$

根据詹森不等式得 $\mathbb{E}(X^2) \geq (\mathbb{E}X)^2$ .如果X是正数，那么 $\mathbb{E}(1/X) \geq 1/\mathbb{E}(X)$ .因为log是凹函数，那么 $\mathbb{E}(logX) \leq log\mathbb{E}(X)$

本章完

未翻译：参考文献，附录，课后作业