1.训练误差界定理

引自李航老师《统计学习方法》P161 定理8.2：
$\quad\quad\quad\prod\limits_{m=1}^MZ_m=\prod\limits_{m=1}^M[2\sqrt{e_m(1-e_m)}]$ $\\\quad\quad\quad\quad\quad\quad\ =\prod\limits_{m=1}^M\sqrt{(1-4r_m^2)}$ $\\\quad\quad\quad\quad\quad\quad\ \le\exp({-2\sum\limits_{m=1}^M \gamma_m^2})$
其中， $\gamma=\cfrac{1}{2}-e_m$

在此只证明不等式部分。

2.不等式部分的两种证明方法

2.1 《统计学习方法》给出的证明

通过泰勒展开，
$\qquad e^x=1+x+\cfrac{x^2}{2!}+...+\cfrac{x^n}{n!}+...$
$\qquad \sqrt{1-x}=1+\cfrac{\cfrac{1}{2}(-x)}{1!}+\cfrac{\cfrac{1}{2}(\cfrac{1}{2}-1)x^2}{2!}+...$
为表示方便起见，令： $t=4r_m^2$
由于 $0\le {e_m}\le\cfrac{1}{2}$ ， $\gamma=\cfrac{1}{2}-e_m$ ，则有： $0\le t\le1$
因此：
$exp(-2r_m^2)=exp(-\cfrac{t}{2})=1+(-\cfrac{t}{2})+\cfrac{(-\cfrac{t}{2})^2}{2!}+\cfrac{(-\cfrac{t}{2})^3}{3!}+\cfrac{(-\cfrac{t}{2})^4}{4!}+...$ $\\\qquad\qquad\quad=1-\cfrac{t}{2}+\cfrac{t^2}{8}-\cfrac{t^3}{48}+\cfrac{t^4}{384}-...\qquad\qquad \qquad\qquad\quad\ \qquad\ \quad\ \quad$ ①
$\sqrt{1-4r_m^2}=\sqrt{1-t}=1+\cfrac{\cfrac{1}{2}(-t)}{1!}+\cfrac{\cfrac{1}{2}(\cfrac{1}{2}-1)(-t)^2}{2!}+\cfrac{\cfrac{1}{2}(\cfrac{1}{2}-1)(\cfrac{1}{2}-2)(-t)^3}{3!}$ $\\\qquad\qquad\qquad\qquad\qquad\quad+\cfrac{\cfrac{1}{2}(\cfrac{1}{2}-1)(\cfrac{1}{2}-2)(\cfrac{1}{2}-3)(-t)^4}{4!}+...$ $\\\qquad\qquad\quad=1-\cfrac{t}{2}-\cfrac{t^2}{8}-\cfrac{3t^3}{48}-\cfrac{15t^4}{384}-...\qquad\qquad \qquad\qquad\quad\ \qquad\ \quad\ \quad$ ②

容易证得， $①-②\ge0$ ，即： $exp(-2r_m^2)\ge \sqrt{1-4r_m^2}$
因此有： $\prod\limits_{m=1}^M\sqrt{(1-4r_m^2)}$ $\le\prod\limits_{m=1}^Mexp(-2r_m^2)=exp({-2\sum\limits_{m=1}^M \gamma_m^2})$
证毕。

2.2 Freund与Schapire的paper证法

两位boosting大神的论文《A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting》也给出了误差界的证明方法，其利用了KL散度。
$\qquad\qquad\prod\limits_{m=1}^M\sqrt{(1-4r_m^2)}=exp(-\sum\limits_{m=1}^MKL(\cfrac{1}{2}||\cfrac{1}{2}-r_m))$ ，
这里 $\ln\cfrac{a}{b}+(1-a)\ln\cfrac{1-a}{1-b},a=\cfrac{1}{2},b=\cfrac{1}{2}-r_m$ ，因此：
$\qquad-KL(\cfrac{1}{2}||\cfrac{1}{2}-r_m)=\cfrac{1}{2}\ln\cfrac{\cfrac{1}{2}-r_m}{\frac{1}{2}}+\cfrac{1}{2}\ln\cfrac{\cfrac{1}{2}+r_m}{\frac{1}{2}}$ $\\ \qquad\qquad\quad\ \qquad\ \quad\ \quad =\cfrac{1}{2}\ln(1-2r_m)+\cfrac{1}{2}\ln(1+2r_m)$ $\\ \qquad\qquad\quad\ \qquad\ \quad\ \quad =\cfrac{1}{2}\ln(1-4r_m^2)$
这里也需要用到泰勒展开：
$\qquad\qquad \ln(1-x)=-x-\cfrac{x^2}{2}-\cfrac{x^3}{3}...-\cfrac{x^n}{n}-...$

令 $\le x=4r_m^2\le1$ ,则有： $\ln(1-4r_m^2)\le-4r_m^2$ ，所以：
$\qquad\qquad\prod\limits_{m=1}^M\sqrt{(1-4r_m^2)}=exp(\sum\limits_{m=1}^M-KL(\cfrac{1}{2}||\cfrac{1}{2}-r_m))\le exp(\sum\limits_{m=1}^M\cfrac{1}{2}\cdot(-4r_m^2))=exp(-2\sum\limits_{m=1}^Mr_m^2)$
证毕。

参考文献

[1]统计学习方法第8.2节
[2]A Decision-Theoretic Generalization of On-Line Learning
and an Application to Boosting

AdaBoost 二分类问题训练误差界的2种证明方法