读书笔记——李航《统计学习方法》CH05

第5章 决策树

决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪;
思想主要来源于:由Quinlan在1986提出的ID3算法和1993年提出的C4.5算法,以及由B雷曼等人在1984年提出的CART算法;

5.1 决策树模型与学习

  • 决策树看成一个if-then规则的集合:互斥并且完备;即每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖;
  • 决策树还表示给定特征条件下类的条件概率分布;这一条件概率分布定义在特征空间的一个划分上;
  • 决策树学习:本质上是从训练数据集中归纳出一组分类规则;是由训练数据集估计条件概率模型;用损失函数表示这一目标,通常是正则化的极大似然函数,学习策略是以损失函数为目标函数的最小化;
  • NPC:从所有可能的决策树中选取最优决策树是NPC问题;学习算法通常采用启发式方法,近似求解这一最优化问题,得到的决策树是次最优的;
  • 学习算法:包括特征选择、决策树的生成与决策树的剪枝过程;

5.2 特征选择

  • 含义:决定用哪个特征来划分特征空间;
  • 特征选择的准则:信息增益或信息增益比;熵与条件熵详见PDF76;当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵和经验条件熵;

  • 信息增益:表示得知特征X的信息而使得类Y的信息的不确定性减少的程度;信息增益大的特征具有更强的分类能力;表示由于特征A而使得对数据集D的分类的不确定性减少的程度;
    
    
    

5.3 决策树的生成

  • ID3算法:在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树;相当于用极大似然法进行概率模型的选择;
    
    


  • 局限:此算法只有树的生成,易过拟合;

  • C4.5的生成算法:在生成过程中,用信息增益比来选择特征;
    

5.4 决策树的剪枝

  •  解决过拟合:因过多考虑如何提高对训练数据的正确分类,而构建出过于复杂的决策树;解决办法是考虑决策树的复杂度,对已生成的决策树进行简化(剪枝);
  • 剪枝:极小化决策树整体的损失函数或代价函数来实现;通过优化损失函数还考虑了减小模型复杂度;

    
    
    
        

5.5 CART算法

分类与回归树模型(CART);
CART算法:
    (1)决策树生成,生成的决策树要尽量大;对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树;
             回归树的生成:
        
                分类树的生成:
                        基尼指数:Gini(D)表示集合D的不确定性,值越大,样本集合的不确定性就越大,与熵类似;
                                                                                                                               
            
    (2)决策树剪枝,损失函数最小作为剪枝标准;
             分成两步:首先从生成算法产生的决策树底端开始不断剪枝,直到根节点,形成一个子树序列;然后通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优(平方误差或基尼指数最小);(详见PDF88)
                


猜你喜欢

转载自blog.csdn.net/sinat_22147265/article/details/80002078