1.原理
决策树的建立是不断的使用数据的特征将数据分类的过程,主要的问题在于如何选择划分的特征。
2.划分选择
ID3算法:以信息增益度量属性选择,选择分裂后信息增益量最大的属性进行分裂。缺点:偏向于多值属性。
C4.5算法:以信息增益率度量属性选择
- CART算法:使用基尼系数来选择划分属性,数据集的纯度可以用基尼系数来度量
3.剪枝处理
剪枝是决策树学习算法对付“过拟合”的主要手段,在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就可能训练样本学得太好,以致于把训练集自身的一些特点当作所有数据具有的一般性质而导致过拟合。
- 3.1预剪枝:根据验证集精度的前后决定是否采用预剪枝。
- 后剪枝:后剪枝决策树通常比预剪枝决策树保留了更多的分支,后剪枝决策是的欠拟合风险很小,泛化性能通常优于预剪枝决策树。