上一节我们讨论的问题对应的是单个hypothesis的情况,那么现在如果有多个hypothesis的情况下我们该如何选到最合适的 g 呢?
如果有一个 h(x) 在所有的训练数据中没有犯任何错误,那是否就意味着它就是我们所需要的 g 呢?答案是否定的!接下来我们就讨论这些问题。
霍夫丁不等式告诉我们,从罐子中取样大部分情况是能够反映真实的弹珠分布情况,即 。但小部分情况下取样结果有可能与实际情况是不相符的,就比如某一次取样得到的全部都是绿色的弹珠,这时候我们不能因为这一次的取样结果就断定罐子中全部都是绿色弹珠,这样的样本我们称之为坏的样本(BAD Sample),即 和 相差很远。hypothesis的数量越大,发生坏样本的几率越高。
穷举所有样本,对于单条hypothesis为坏样本的概率计算方法就是:用总概率P(D)乘以坏样本的数量,并全部累加起来。具体如下图:
如果现在有M条的hypothesis和5678抽样数据,那么我们该选择哪一笔抽样作为训练数据呢?要知道如果训练数据是坏样本,那么接下来的所有工作都有可能白费了,所以选择合适的资料成为了重中之重。如下图:
我们发现图中
和
对于所有的 h 几乎都是坏的样本,只有
才算是合适的训练样本。只要数据对于某条 h 是不好的,我们就说它是坏的样本。
那么我们如何计算出所有BAD Sample的概率呢?
首先我们要把所有的
[BAD D]都加起来,即:
[BAD D]
=
[BAD D for h
or BAD D for h
or … or BAD D for h
]
然后把括号拆开就得到如下式子,该式子叫uion bound
[BAD D for h
]+
[BAD D for h
]+…+
[BAD D for h
]
根据霍夫丁不等式
我们知道我们可以不关心P和
,然后直接把上面的式子转换为下面的式子:
+
+…+
又因为一共有M个训练样本,所以
完整过程如下图:
现在我们已经保证了在多条hypothesis的情况下也能够选到合适的 g 了,但前提是hypothesis的个数是有限的,此处即为M。
===========================懵逼分割线===========================
欢迎大家加入Q群讨论:463255841
===========================懵逼分割线===========================