本章内容:
- 4.1 概率不等式
- 4.2 期望不等式
关键名词,存在部分词不达意的情况,因此将关键名词整理如下
1. 不等式:Inequalities
2. 马尔可夫不等式:Markov's Inequality
3. 切比雪夫不等式:Chebyshev's Inequality
4. 赫夫丁不等式:Hoeffding's inequality
5. 置信区间:Confidence Interval
6. 柯西-施瓦茨不等式:Cauchy-Schwartz inequality
7. 米尔不等式:Mill's Inequality
8. 詹森不等式:Jensen's inequality
4.1 概率不等式
不等式对于那些可能难以计算的量比较有用,它可以用于限定上下限。它还会用在下一章的收敛理论。我们的第一个不等式是马尔可夫不等式(Markov's Inequalities)
4.1 定理(马尔可夫不等式)
设X是一个非负的随机变量,假定存在,对于任何t>0,有:
证明:
因为X>0,所以:
4.2 定理(切比雪夫不等式 )
设,,那么:
,且
其中,.事实上,,
证明:
我们使用马尔可夫不等式来证明,
将t换成即可得证第二个不等式
4.3 例子
假设我们在一组n个新的测试样例集上测试一个预测方法,例如神经网络。如果预测错误,令Xi = 1,如果预测正确,令Xi = 0。 那么是观测到的错误率。每个Xi可以看作是具有未知期望p的伯努利随机变量。我们想知道真实但未知的错误率p。那么不在p的附近的概率有多大呢?
我们有,那么:
因为对于所有p,有.如果,,则上式上界为:0.0625
赫夫丁不等式在精神上类似于马尔可夫不等式,但它是一种更严格的不等式。我们在这里将结果分为两部分呈现。
4.4 定理(赫夫丁不等式)
设Y1..Yn是独立观测值,满足:,,设,那么对于任意t>0,有:
4.5 定理(赫夫丁不等式)
设,那么对于任何,有:
其中
4.6 例子
设,n=100,根据切比雪夫不等式得:
根据赫夫丁不等式得
赫夫丁不等式为我们提供了一种简单的方法来创建二项分布参数p的置信区间(confidence interval)。我们将在后面详细讨论置信区间(第6章),但这里是基本的思想。固定一个正数a,让
根据赫夫丁不等式,有
令.那么,因此.即,随机区间C以概率1 - a 包含真实的参数值p;我们称C为一个1 - a置信区间。更多内容稍后再讨论。
以下不等式对于限定与正态随机变量有关的概率状态非常有用。(需要校对)
4.7 定理(米尔不等式)
设,那么
4.2 期望不等式
这个部分包含了两个关于期望值的不等式
4.8 定理(柯西-施瓦茨不等式)
如果X和Y具有有限的方差,那么
注意:下面的凹凸函数的定义和国内的教材是相反的
回忆一下:如果每个x,y,,满足如下,则是凸函数(Convex):
如果函数g具有两阶可导性,并且对于所有的x,g"(x) ≥ 0,则函数g是凸函数。可以证明,如果函数g是凸函数,那么g位于任何切线的上方。如果函数g是凹函数,那么-g就是凸函数。凸函数的示例包括 g(x) = x^2 和 g(x) = e^x。凹函数的示例包括 g(x) = -x^2 和 g(x) = log(x)。
4.9 定理(詹森不等式)
如果g是凸函数,那么.如果g是凹函数,那么
证明:令 是一条与 g(x) 在点 处相切的直线.因为g是凸函数,他在直线L(x)的上方,所以:
根据詹森不等式得.如果X是正数,那么.因为log是凹函数,那么
本章完
未翻译:参考文献,附录,课后作业