初识集成学习_20201110

一,机器学习思维导图

1.1 思维导图如下:

在这里插入图片描述

1.2概念解释

同质个体学习器:所有个体学习器都是一个类型,比如都是决策树学期其,或者神经网络学习器,这样的个体学习器有叫做基学习器(base learner),有时候也被称为弱学习器。对应的算法叫做基学习算法(base learning algorithm)。
异质个体学习器:个体学习器不全采用同一种类型,比如对训练集采用支持向量机个体学习器,逻辑回归个体学习器,和朴素贝叶斯个体学习器来学习,然后通过某种结合策略形成最终的强学习器,这时的个体学习器叫做“组合学习器”,或者直接叫学习器。
弱学习器:指泛化能力略高于随机猜测的学习器,例如二分类问题中精度略高于50%的学习器。
泛化:指对于输入的测试样本,模型的适应能力。

二,boosting原理

在这里插入图片描述
如上图,先根据初始权重对训练集训练得出一个弱学习器1,然后根据样本错误率来更新样本的权重,错误率高的样本给予更高的权重,在下一次训练中将会被更加重视,然后使用新的权重训练样本得到弱学习器2,这样循环往复,直到得到规定次数的弱学习器,然后通过集合策略对弱学习器进行整合,最终得到强学习器。

三,bagging原理

在这里插入图片描述
从初始样本中随机抽样形成若干个子训练样本,然后根据子训练样本分别训练形成多个弱学习器,然后再通过集合策略将多个弱学习器形成一个强学习器。

补充资料
自助采样法(bootstrap samples):从样本量为M的样本空间中又放回的随机抽取m个样本。
随机森林是bagging的一个扩展变种,其在选择决策树做为基学习器构建bagging集成学习的基础上,在属性选择上也增加了随机性。
具体来说就是在传统决策树是从所有属性集合(假定有d个属性)中选择最优属性,随机森林是从这d个属性中随机选择k个(k<d)做为子属性集,然后从这个子属性集中选择一个最有的,这个k一般推荐为k=log2d

四,bagging与boosting的对比

在这里插入图片描述

五,集成学习结合策略

5.1 平均法

假设T个基学习器的输出为h1,h2,h3…ht
适用于数值型回归预测问题
简单平均法最终预测:适用于个体学习器性能差异不大的
在这里插入图片描述

加权平均法最终预测:适用于个体学习器之间性能差异较大的
在这里插入图片描述

5.2 投票法

假设T个基学习器的输出为h1,h2,h3…ht
相对多数投票法(plurality voting)
少数服从多数方式,基学习器中票数最多的做为最终选择的类别
绝对多数投票法(majority voting):
在相对投票法的基础上加上最多票数的比例要大于50%,否则作废。
加权投票法
每个弱分类器的票数乘以权重做为加权票数,最后将所有弱分类器的票数分类相加,最终票数多的做为选择分类。

5.3 学习法

以上两种结合方法简单但是误差大,所以有了学习法的结合策略,代表是stacking,其实是两层学习器,将训练集初级学习器的输出做次级学习器的输入,将训练集的输出做次级学习器的输出,得到最终的预测结果
测试时,测试集在初级学习器上预测一次,输出做为次级学习器的输入,然后次级学习器再预测一次,得到最终结果。

六,集成学习之stacking

将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过所有基模型的预测形成新的测试集,最后再对测试集进行预测:
在这里插入图片描述
Stacking算法分为2层,第一层是用不同的算法形成T个弱分类器,同时产生一个与原数据集大小相同的新数据集,利用这个新数据集和一个新算法构成第二层的分类器。

Stacking 就像是 Bagging的升级版,Bagging中的融合各个基础分类器是相同权重,而Stacking中则不同,Stacking中第二层学习的过程就是为了寻找合适的权重或者合适的组合方式。

猜你喜欢

转载自blog.csdn.net/a18829292719/article/details/109602822