1. 概述
在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
通俗一点来讲,当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见,集成学习也是如此。集成学习就是组合多个学习器,最后可以得到一个更好的学习器。
2. 集成学习算法
- 个体学习器存在强依赖关系,必须串行生成的序列化方法,以Boosting为代表。
- 个体学习器不存在强依赖关系,可同时生成的并行化方法,以Bagging和随机森林(Random Forest)为代表。