决策树分类常见问题及评价指标
1. 数据属性问题
- 常见离散属性:
二元属性,标称属性,适合决策树分类算法。 - 数值型等连续型属性:
如年龄,身高,血压,在进行分类时采用连续属性离散化,即分段分区间的形式,才能很好的适应决策树算法。
2. 过拟合问题
- 两种误差定义
训练误差:分类算法对于现有训练样本集的拟合程度。
泛化误差:代表此方法的泛化能力,即对于新的样本数据的分类能力如何。 - 两种误差比较
若模型的训练误差较大,则称此分类模型欠拟合。
若模型的训练误差低但是泛化误差比较高,称此分类模型过拟合。 - 解决方法
欠拟合:增加分类属性的数量,选取合适的分类方法,提高模型对于训练样本的拟合程度。
过拟合:把噪声学进模型了,通过划分样本集,70%样本训练决策树模型,30%样本检测模型,提高模型的泛化能力或者通过减少决策树的深度来减少过拟合的可能性。
3. 分类效果评价
- 指标:训练误差,泛化误差,准确率,错误率
- 对于一般二分类问题,分类情况有:
真正类 ,假反类 ,假正类 ,真反类
3.1 评价决策树的好坏
- 准确率:
预测对的样本数与总测试样本数的比值
-
精确率:
-
召回率(查全率)
预测对的样本数与预测对的+遗漏人数总和的比值
3.2 用准确率和召回率的综合指标调和平均来衡量好坏
其中
为调和参数值,通常取值为
,
即为最常见的
值。
3.3 用受试者工作特征曲线(ROC)曲线来作为综合评价指标
ROC曲线与两端点所连线段组成的面积为AUC,AUC值越大,表示分类模型的预测准确性越高。