机器学习与深度学习系列连载：第一部分机器学习（十二）集成学习（Ensemble）

其他 2018-10-06 14:10:24 阅读次数: 0

集成学习（Ensemble）

1. Bagging

我们考虑当结果的 variance 很大，如果降低 variance。
我们可以考虑“平行宇宙”，不同的training set 中生成不同的模型，然后做平均或者voting。
在这里插入图片描述

2. Decision Tree（Review）

我们复习上一节的决策树的概念。
在这里插入图片描述
来一个有意思的实验，分辨出漫画人物

当单棵决策树的深度为20的时候，得到的结果已经很不错了，但是很有可能会出现一个结果：overfitting。如果解决overfitting呢？我们看随机森林

3. 随机森林（Random Forest）

Decision tree 很容易在训练数据中误差为0，但是产生overfitting。
Random Forest 就是 bagging of decision tree ，是众多决策树的集合。在这里插入图片描述
我们使用没有选择的数据做validation数据

4. Boosting

对于Boosting 我们有：

当我们使用机器学习算法得出的分类器的错误率在训练数据中小于50%
我们使用Boosting 可以让最后的错误结果达到0%
Boosting 的框架结构：
- 首先获得分类器 $f_{1}(x)$
- 找到另一个分类器 $f_{2}(x)$ 来帮助 $f_{1}(x)$
  - 但是，如果 $f_{2}(x)$ 与 $f_{1}(x)$ 相似，对于结果的帮助不太大
  - 如果我们想让 $f_{2}(x)$ 成为 $f_{1}(x)$ 的补充（我们将怎样去做）
- 找到第二个分类器 $f_{2}(x)$
- … 最后集成所有的分类器
- 所有的分类学习都是序列的

（1）怎样获取不同的分类器？

在不同的训练数据集中进行训练
获得不同训练数据集的方法
- 重新抽样数据集
- 给数据集的数据分配权重
- 在实作中，仅仅需要修改cost 函数

（2） Adaboost的思路（Idea of Adaboost）
思路：分类器 $f_{1}(x)$ 的错误分类小于50%，我们调整训练数据权重，是的 $f_{2}(x)$ 中的训练数据权重，在 $f_{1}(x)$ 出错的地方提高， $f_{1}(x)$ 正确的地方降低。

在这里插入图片描述
究竟训练数据的权重增大或者降低多少呢？？？

推导过程：

（2） Adaboost算法

举例说明：

5.General Formulation of Boosting

在这里插入图片描述

6.Stacking

Voting
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/dukuku5038/article/details/82929068

机器学习与深度学习系列连载：第一部分机器学习（十二）集成学习（Ensemble）

机器学习与深度学习系列连载：第一部分机器学习（一）导论

机器学习与深度学习系列连载：第一部分机器学习（十八）模型评估

nginx学习.第一部分

第一部分 Scala 学习

JavaEE的学习第一部分

机器学习与深度学习系列连载：第一部分机器学习（二）监督学习：回归

机器学习与深度学习系列连载：第一部分机器学习（十五）非监督度学习-2 Unsupervised Learning-2（Neighbor Embedding）

机器学习与深度学习系列连载：第一部分机器学习（十三）半监督学习（semi-supervised learning）

机器学习与深度学习系列连载：第一部分机器学习（十七）非监督度学习-2 Unsupervised Learning-4（Generative Models）

机器学习与深度学习系列连载：第一部分机器学习（三）监督学习：分类和逻辑回归（Classification and logistic regression）

机器学习与深度学习系列连载：第一部分机器学习（十）决策树1（Decision Tree）

机器学习与深度学习系列连载：第一部分机器学习（九）支持向量机2（Support Vector Machine）

机器学习与深度学习系列连载：第一部分机器学习（八）支持向量机1（Support Vector Machine）

原机器学习与深度学习系列连载：第一部分机器学习（十一）决策树2（Decision Tree）

机器学习与深度学习系列连载：第一部分机器学习（五）生成概率模型（Generative Model）

机器学习与深度学习系列连载：第一部分机器学习（四）误差分析（Bias and Variance）和模型调优

机器学习与深度学习系列连载：第一部分机器学习（七）朴素贝叶斯（Naive Bayes）

机器学习与深度学习系列连载：第一部分机器学习（六）训练数据和测试数据（Train data and Test data）

机器学习笔记公式推导（一）：第一部分

机器学习之第一部分：词袋模型

tensorflow 2.0 深度学习（第一部分 part2）

PaddlePaddle 深度学习实战（第一部分）

Keras - Python深度学习（第一部分）

tensorflow 2.0 深度学习（第一部分 part3）

机器学习与深度学习系列连载：第一部分机器学习（十六）非监督度学习-2 Unsupervised Learning-3（Auto-Encoder）

HTML学习第一部分（前端学习）

《dx12 龙书》第一部分学习笔记（一）

IT学习笔记（四）（第一部分）（持续更新）

Memcached学习笔记 — 第一部分:Memcached基础

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)