一，机器学习思维导图

1.1 思维导图如下：

在这里插入图片描述

1.2概念解释

同质个体学习器：所有个体学习器都是一个类型，比如都是决策树学期其，或者神经网络学习器，这样的个体学习器有叫做基学习器（base learner），有时候也被称为弱学习器。对应的算法叫做基学习算法（base learning algorithm）。
异质个体学习器：个体学习器不全采用同一种类型，比如对训练集采用支持向量机个体学习器，逻辑回归个体学习器，和朴素贝叶斯个体学习器来学习，然后通过某种结合策略形成最终的强学习器，这时的个体学习器叫做“组合学习器”，或者直接叫学习器。
弱学习器：指泛化能力略高于随机猜测的学习器，例如二分类问题中精度略高于50%的学习器。
泛化：指对于输入的测试样本，模型的适应能力。

二，boosting原理

在这里插入图片描述
如上图，先根据初始权重对训练集训练得出一个弱学习器1，然后根据样本错误率来更新样本的权重，错误率高的样本给予更高的权重，在下一次训练中将会被更加重视，然后使用新的权重训练样本得到弱学习器2，这样循环往复，直到得到规定次数的弱学习器，然后通过集合策略对弱学习器进行整合，最终得到强学习器。

三，bagging原理

在这里插入图片描述
从初始样本中随机抽样形成若干个子训练样本，然后根据子训练样本分别训练形成多个弱学习器，然后再通过集合策略将多个弱学习器形成一个强学习器。

补充资料：
自助采样法（bootstrap samples）:从样本量为M的样本空间中又放回的随机抽取m个样本。
随机森林是bagging的一个扩展变种，其在选择决策树做为基学习器构建bagging集成学习的基础上，在属性选择上也增加了随机性。
具体来说就是在传统决策树是从所有属性集合（假定有d个属性）中选择最优属性，随机森林是从这d个属性中随机选择k个（k<d）做为子属性集，然后从这个子属性集中选择一个最有的，这个k一般推荐为k=log2d

四，bagging与boosting的对比

在这里插入图片描述

五，集成学习结合策略

5.1 平均法

假设T个基学习器的输出为h1,h2,h3…ht
适用于数值型回归预测问题。
简单平均法最终预测：适用于个体学习器性能差异不大的
在这里插入图片描述

加权平均法最终预测：适用于个体学习器之间性能差异较大的
在这里插入图片描述

5.2 投票法

假设T个基学习器的输出为h1,h2,h3…ht
相对多数投票法（plurality voting）：
少数服从多数方式，基学习器中票数最多的做为最终选择的类别
绝对多数投票法（majority voting）：
在相对投票法的基础上加上最多票数的比例要大于50%，否则作废。
加权投票法
每个弱分类器的票数乘以权重做为加权票数，最后将所有弱分类器的票数分类相加，最终票数多的做为选择分类。

5.3 学习法

以上两种结合方法简单但是误差大，所以有了学习法的结合策略，代表是stacking，其实是两层学习器，将训练集初级学习器的输出做次级学习器的输入，将训练集的输出做次级学习器的输出，得到最终的预测结果
测试时，测试集在初级学习器上预测一次，输出做为次级学习器的输入，然后次级学习器再预测一次，得到最终结果。

六，集成学习之stacking

将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测：
在这里插入图片描述
Stacking算法分为2层，第一层是用不同的算法形成T个弱分类器，同时产生一个与原数据集大小相同的新数据集，利用这个新数据集和一个新算法构成第二层的分类器。

Stacking 就像是 Bagging的升级版，Bagging中的融合各个基础分类器是相同权重，而Stacking中则不同,Stacking中第二层学习的过程就是为了寻找合适的权重或者合适的组合方式。

初识集成学习_20201110