2.3.1 决策树原理

1. 决策树概念须知

信息熵&信息增益

熵:熵(entropy)指的是体系的混乱程度，在不同的学科中也有引申出更加具体的定义。
信息熵(香农熵): 是一种信息的度量方式，表示信息的混乱程度，也就是说，信息越有序，信息熵越低。例如：火柴有序放在火柴盒里，熵值很低，相反，熵值很高。
信息增益：在划分数据集前后信息发生的变化称为信息增益。

2. 决策树工作原理

如何构造一个决策树?
我们使用 createBranch() 方法，如下所示：

检测数据集中的所有数据的分类标签是否相同:
    If so return 类标签
    Else:
        寻找划分数据集的最好特征（划分之后信息熵最小，也就是信息增益最大的特征）
        划分数据集
        创建分支节点
            for 每个划分的子集
                调用函数 createBranch （创建分支的函数）并增加返回结果到分支节点中
        return 分支节点

3. 决策树开发流程

收集数据：可以使用任何方法。
准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。
分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。
训练算法：构造树的数据结构。
测试算法：使用经验树计算错误率。（经验树没有搜索到较好的资料，有兴趣的同学可以来补充）
使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

4. 决策树算法特点

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配问题。
适用数据类型：数值型和标称型。

1. 决策树概念须知

2. 决策树工作原理

3. 决策树开发流程

4. 决策树算法特点

5. 决策树项目案例

5.1 判定鱼类和非鱼类

5.2 使用决策树预测隐形眼镜

猜你喜欢

2.3.1 决策树原理

1. 决策树 概念须知

2. 决策树 工作原理

3. 决策树 开发流程

4. 决策树 算法特点

5. 决策树 项目案例

5.1 判定鱼类和非鱼类

5.2 使用决策树预测隐形眼镜

猜你喜欢

1. 决策树概念须知

2. 决策树工作原理

3. 决策树开发流程

4. 决策树算法特点

5. 决策树项目案例