决策树分类常见问题及评价指标

其他 2020-04-20 17:46:33 阅读次数: 0

决策树分类常见问题及评价指标

1. 数据属性问题

常见离散属性：
二元属性，标称属性，适合决策树分类算法。
数值型等连续型属性：
如年龄，身高，血压，在进行分类时采用连续属性离散化，即分段分区间的形式，才能很好的适应决策树算法。

2. 过拟合问题

两种误差定义
训练误差：分类算法对于现有训练样本集的拟合程度。
泛化误差：代表此方法的泛化能力，即对于新的样本数据的分类能力如何。
两种误差比较
若模型的训练误差较大，则称此分类模型欠拟合。
若模型的训练误差低但是泛化误差比较高，称此分类模型过拟合。
解决方法
欠拟合：增加分类属性的数量，选取合适的分类方法，提高模型对于训练样本的拟合程度。
过拟合：把噪声学进模型了，通过划分样本集，70%样本训练决策树模型，30%样本检测模型，提高模型的泛化能力或者通过减少决策树的深度来减少过拟合的可能性。

3. 分类效果评价

指标：训练误差，泛化误差，准确率，错误率
对于一般二分类问题，分类情况有：
真正类 $TP$ ，假反类 $FN$ ，假正类 $FP$ ，真反类 $TN$

3.1 评价决策树的好坏

准确率：
$accuracy=\frac{TP+TN}{TP+FN+FP+TN}$

预测对的样本数与总测试样本数的比值

精确率：
$precison=\frac{TP}{TP+FP}$
召回率(查全率)
$recall=\frac{TP}{TP+FN}$

预测对的样本数与预测对的＋遗漏人数总和的比值

3.2 用准确率和召回率的综合指标调和平均来衡量好坏

$F=\frac{(\alpha^2+1)\times accuracy\times recall}{\alpha^2(accuracy+recall)}$
其中 $\alpha$ 为调和参数值，通常取值为 $1$ ， $F$ 即为最常见的 $F_1$ 值。

3.3 用受试者工作特征曲线(ROC)曲线来作为综合评价指标

ROC曲线与两端点所连线段组成的面积为AUC，AUC值越大，表示分类模型的预测准确性越高。

发布了22 篇原创文章 · 获赞 3 · 访问量 3100

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_39920026/article/details/104017889

决策树分类常见问题及评价指标

常见决策树分类算法都有哪些？

分类问题：决策树

分类问题学习笔记-决策树

常见的评价指标

决策树分类

决策树—分类

决策树 – 分类

分类-决策树

分类问题 | 评价指标

分类问题的评价指标

决策树分类原理

决策树分类算法

决策树的iris的分类

分类：决策树——剪枝

分类——决策树归纳

决策树-分类算法

【分类模型】决策树

【分类算法】决策树

分类——决策树模型

[DM]分类-决策树

使用决策树分类

用决策树(CART)解决iris分类问题

机器学习-利用决策树解决多分类问题

决策树分类问题 scala代码实现

多分类问题的评价指标

决策树(二)：分类决策树

简单粗暴理解与实现机器学习之决策树算法（二）：决策树分类原理、熵、决策树的划分依据之信息增益and信息增益率and基尼值和基尼指数、常见决策树类型比较、cart剪枝（附手写笔记）

决策树——CART分类树算法

分类：决策树——树的生长

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)