机器学习笔记 第9课

开始关于学习理论的内容了,这比了解算法,推导公式更为重要

(1)高偏差(bias)和高方差(variance)的权衡---欠拟合与过拟合的权衡

(2)ERM(经验风险最小化 empirical risk minimizition) 使训练误差最小(trainning error即为risk)

(3)训练误差(training error):模型对于训练的样本分错的概率

一般误差(generaliztion error):利用该假设进行实际的样本分类(为出现过的样本),分错的概率

训练误差与一般误差一般具有某些相似性,即训练误差较小往往一般误差也比较小

(4)一致收敛表明了,对于一个假设集合中的所有假设,在大于等于某一概率(由霍夫丁不等式推出)的情况下,所有假设的训练误差与一般误差之间的差值不大于某个定值(gamma可事前选定)。

当训练样本数量m增大时,假设集合中的所有假设的训练误差都会收敛到其一般误差。

这里的一致收敛有个前提是假设集合中的假设个数是有限的。

注意一致收敛的两个推论,即样本复杂度与误差界。

(5)计算机。。对于任意K,logk<=30  ......  仅仅是为了表明log函数增长的很慢

(6)对于一个假设而言,其训练误差一定小于等于一般误差吗?(不一定吧)

注意至今为止所做的假设,假设类的个数都是有限的

(7)当使用一个更为复杂的假设集合时,例如从线性假设集合到二次函数假设集合,偏差\方差权衡公式第一项变小而第二项变大,即偏差会变小而方差会变大(非正式的认为)。

(8)注意这里所说的偏差与方差,并无直接上的数学的定义

我的理解是,偏差即为算法对于数据的拟合程度,而方差刻画的是算法拟合的值对于中心值的离散程度。

偏差越小,算法拟合越好,但可能会导致方差越大,即模型学会一些数据奇怪的特征,泛化能力就会较差。

方差越小,拟合的结果越集中,对于外面数据的抗干扰能力越强,但是可能会带来偏差过大,拟合的程度差,即该模型并没有学习到数据的主要特征。

--------------------------------------------------------------------------

在这里,简单的对于第9课的内容进行梳理

核心即在于偏差与方差权衡,即如何选择一个较为好的学习模型。

    从训练误差与一般误差出发,根据霍夫丁不等式,量化训练误差与一般误差的差异,并指出随着训练样本m的增加,这种差异越来越小。

    之后通过联合界引理推导出对于一个有限假设集合中所有假设,都具备上述性质,即量化的差异。由此,便是一致性收敛。

    由一致性收敛得到两个推论,即样本复杂度和误差界(通过固定参数即可推导)。

    由一致性收敛,结合训练误差与一般误差,可推导出偏差\方差权衡公式。直观上看,EPM最小的假设的一般误差与实际上的最小一般误差存在一个2倍gamma的差异,且gamma随m增加而减少,随k增加而增加。

    根据偏差\方差权衡公式,可直观上得出结论,随着模型的复杂程度提升,偏差减少,而方差增大。选择的优模型,应折中考虑偏差与方差两个因素。

    

猜你喜欢

转载自blog.csdn.net/OliverLee456/article/details/80657819