开始关于学习理论的内容了,这比了解算法,推导公式更为重要
(1)高偏差(bias)和高方差(variance)的权衡---欠拟合与过拟合的权衡
(2)ERM(经验风险最小化 empirical risk minimizition) 使训练误差最小(trainning error即为risk)
(3)训练误差(training error):模型对于训练的样本分错的概率
一般误差(generaliztion error):利用该假设进行实际的样本分类(为出现过的样本),分错的概率
训练误差与一般误差一般具有某些相似性,即训练误差较小往往一般误差也比较小
(4)一致收敛表明了,对于一个假设集合中的所有假设,在大于等于某一概率(由霍夫丁不等式推出)的情况下,所有假设的训练误差与一般误差之间的差值不大于某个定值(gamma可事前选定)。
当训练样本数量m增大时,假设集合中的所有假设的训练误差都会收敛到其一般误差。
这里的一致收敛有个前提是假设集合中的假设个数是有限的。
注意一致收敛的两个推论,即样本复杂度与误差界。
(5)计算机。。对于任意K,logk<=30 ...... 仅仅是为了表明log函数增长的很慢
(6)对于一个假设而言,其训练误差一定小于等于一般误差吗?(不一定吧)
注意至今为止所做的假设,假设类的个数都是有限的
(7)当使用一个更为复杂的假设集合时,例如从线性假设集合到二次函数假设集合,偏差\方差权衡公式第一项变小而第二项变大,即偏差会变小而方差会变大(非正式的认为)。
(8)注意这里所说的偏差与方差,并无直接上的数学的定义
我的理解是,偏差即为算法对于数据的拟合程度,而方差刻画的是算法拟合的值对于中心值的离散程度。
偏差越小,算法拟合越好,但可能会导致方差越大,即模型学会一些数据奇怪的特征,泛化能力就会较差。
方差越小,拟合的结果越集中,对于外面数据的抗干扰能力越强,但是可能会带来偏差过大,拟合的程度差,即该模型并没有学习到数据的主要特征。
--------------------------------------------------------------------------
在这里,简单的对于第9课的内容进行梳理
核心即在于偏差与方差权衡,即如何选择一个较为好的学习模型。
从训练误差与一般误差出发,根据霍夫丁不等式,量化训练误差与一般误差的差异,并指出随着训练样本m的增加,这种差异越来越小。
之后通过联合界引理推导出对于一个有限假设集合中所有假设,都具备上述性质,即量化的差异。由此,便是一致性收敛。
由一致性收敛得到两个推论,即样本复杂度和误差界(通过固定参数即可推导)。
由一致性收敛,结合训练误差与一般误差,可推导出偏差\方差权衡公式。直观上看,EPM最小的假设的一般误差与实际上的最小一般误差存在一个2倍gamma的差异,且gamma随m增加而减少,随k增加而增加。
根据偏差\方差权衡公式,可直观上得出结论,随着模型的复杂程度提升,偏差减少,而方差增大。选择的优模型,应折中考虑偏差与方差两个因素。