机器学习笔记第9课

开始关于学习理论的内容了，这比了解算法，推导公式更为重要

（1）高偏差（bias）和高方差（variance）的权衡---欠拟合与过拟合的权衡

（2）ERM（经验风险最小化 empirical risk minimizition）使训练误差最小（trainning error即为risk）

（3）训练误差（training error）:模型对于训练的样本分错的概率

一般误差（generaliztion error）:利用该假设进行实际的样本分类（为出现过的样本），分错的概率

训练误差与一般误差一般具有某些相似性，即训练误差较小往往一般误差也比较小

（4）一致收敛表明了，对于一个假设集合中的所有假设，在大于等于某一概率（由霍夫丁不等式推出）的情况下，所有假设的训练误差与一般误差之间的差值不大于某个定值（gamma可事前选定）。

当训练样本数量m增大时，假设集合中的所有假设的训练误差都会收敛到其一般误差。

这里的一致收敛有个前提是假设集合中的假设个数是有限的。

注意一致收敛的两个推论，即样本复杂度与误差界。

（5）计算机。。对于任意K，logk<=30 ...... 仅仅是为了表明log函数增长的很慢

（6）对于一个假设而言，其训练误差一定小于等于一般误差吗？（不一定吧）

注意至今为止所做的假设，假设类的个数都是有限的

（7）当使用一个更为复杂的假设集合时，例如从线性假设集合到二次函数假设集合，偏差\方差权衡公式第一项变小而第二项变大，即偏差会变小而方差会变大（非正式的认为）。

（8）注意这里所说的偏差与方差，并无直接上的数学的定义

我的理解是，偏差即为算法对于数据的拟合程度，而方差刻画的是算法拟合的值对于中心值的离散程度。

偏差越小，算法拟合越好，但可能会导致方差越大，即模型学会一些数据奇怪的特征，泛化能力就会较差。

方差越小，拟合的结果越集中，对于外面数据的抗干扰能力越强，但是可能会带来偏差过大，拟合的程度差，即该模型并没有学习到数据的主要特征。

--------------------------------------------------------------------------

在这里，简单的对于第9课的内容进行梳理

核心即在于偏差与方差权衡，即如何选择一个较为好的学习模型。

从训练误差与一般误差出发，根据霍夫丁不等式，量化训练误差与一般误差的差异，并指出随着训练样本m的增加，这种差异越来越小。

之后通过联合界引理推导出对于一个有限假设集合中所有假设，都具备上述性质，即量化的差异。由此，便是一致性收敛。

由一致性收敛得到两个推论，即样本复杂度和误差界（通过固定参数即可推导）。

由一致性收敛，结合训练误差与一般误差，可推导出偏差\方差权衡公式。直观上看，EPM最小的假设的一般误差与实际上的最小一般误差存在一个2倍gamma的差异，且gamma随m增加而减少，随k增加而增加。

根据偏差\方差权衡公式，可直观上得出结论，随着模型的复杂程度提升，偏差减少，而方差增大。选择的优模型，应折中考虑偏差与方差两个因素。

机器学习笔记 第9课