读书笔记——李航《统计学习方法》CH05 - 代码天地

读书笔记——李航《统计学习方法》CH05

其他 2018-09-03 20:16:58 阅读次数: 0

第5章决策树

决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪；

思想主要来源于：由Quinlan在1986提出的ID3算法和1993年提出的C4.5算法，以及由B雷曼等人在1984年提出的CART算法；

5.1 决策树模型与学习

决策树看成一个if-then规则的集合：互斥并且完备；即每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径或一条规则所覆盖；
决策树还表示给定特征条件下类的条件概率分布；这一条件概率分布定义在特征空间的一个划分上；

决策树学习：本质上是从训练数据集中归纳出一组分类规则；是由训练数据集估计条件概率模型；用损失函数表示这一目标，通常是正则化的极大似然函数，学习策略是以损失函数为目标函数的最小化；
NPC：从所有可能的决策树中选取最优决策树是NPC问题；学习算法通常采用启发式方法，近似求解这一最优化问题，得到的决策树是次最优的；
学习算法：包括特征选择、决策树的生成与决策树的剪枝过程；

5.2 特征选择

含义：决定用哪个特征来划分特征空间；
特征选择的准则：信息增益或信息增益比；熵与条件熵详见PDF76；当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵和经验条件熵；

信息增益：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度；信息增益大的特征具有更强的分类能力；表示由于特征A而使得对数据集D的分类的不确定性减少的程度；

5.3 决策树的生成

ID3算法：在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树；相当于用极大似然法进行概率模型的选择；

局限：此算法只有树的生成，易过拟合；

C4.5的生成算法：在生成过程中，用信息增益比来选择特征；

5.4 决策树的剪枝

解决过拟合：因过多考虑如何提高对训练数据的正确分类，而构建出过于复杂的决策树；解决办法是考虑决策树的复杂度，对已生成的决策树进行简化（剪枝）；
剪枝：极小化决策树整体的损失函数或代价函数来实现；通过优化损失函数还考虑了减小模型复杂度；

5.5 CART算法

分类与回归树模型（CART）；

CART算法：

（1）决策树生成，生成的决策树要尽量大；对回归树用平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树；

回归树的生成：

分类树的生成：

基尼指数：Gini(D)表示集合D的不确定性，值越大，样本集合的不确定性就越大，与熵类似；

（2）决策树剪枝，损失函数最小作为剪枝标准；

分成两步：首先从生成算法产生的决策树底端开始不断剪枝，直到根节点，形成一个子树序列；然后通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优（平方误差或基尼指数最小）；（详见PDF88）

猜你喜欢

转载自blog.csdn.net/sinat_22147265/article/details/80002078

读书笔记——李航《统计学习方法》CH05

读书笔记——李航《统计学习方法》CH08

读书笔记——李航《统计学习方法》CH02

读书笔记——李航《统计学习方法》CH01

读书笔记——李航《统计学习方法》CH07

读书笔记——李航《统计学习方法》CH06

读书笔记——李航《统计学习方法》CH04

读书笔记——李航《统计学习方法》CH03

统计学习方法李航读书笔记

《统计学习方法》(李航)读书笔记

《统计学习方法》(李航)读书笔记(完结)超级火爆的总结

《统计学习方法》李航著第一章读书笔记

李航《统计学习方法》学习笔记——ch1统计学习概论

李航《统计学习方法》CH02

李航《统计学习方法》CH03

李航《统计学习方法》学习笔记——ch2感知机

李航·《统计学习方法》学习笔记

《统计学习方法》（李航）——学习笔记

统计学习方法 - 李航

李航《统计学习方法》_笔记总结

李航《统计学习方法》笔记

统计学习方法（李航）笔记

统计学习方法_李航_笔记

李航—统计学习方法笔记（一）

李航-统计学习方法-笔记-1：概论

《统计学习方法（李航）》统计学习方法概论学习笔记

李航-统计学习方法笔记（一）：统计学习方法概论

李航-统计学习方法-笔记-1：统计学习方法概论

学习笔记_第一章统计学习方法概率-《统计学习方法》李航

机器学习 | 李航《统计学习方法》笔记整理之（一）统计学习方法概论

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)