一、DT(决策树算法)概述
一句话:以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处熵值为0(叶节点中的实例都属于一类)。
自顶向下的递归方法选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。
决策树算法:ID3和C4.5都是基于信息增益作为特征选择的度量,CART基于基尼指数作为特征选择的度量;
结点:内部结点为特征(或属性),叶结点为类别;
种类:分类树(对离散数据进行决策)和回归树(对连续数据进行决策);
缓解过拟合方法:剪枝
二、优缺点
优点:
1、(易理解性和已推理性)计算不复杂、结果易理解,根据结果很容易推断出相应的逻辑表达式;
2、(数据不敏感)数据预处理比较简答,对中间值的缺失不敏感;
3、(特征无关性)可处理不相关特征数据;
扫描二维码关注公众号,回复:
11349206 查看本文章
![](/qrcode.jpg)
4、(多特征性)可以对有许多特征的数据集构造决策树;
5、(时间性)在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果;
缺点:
1、容易产生过拟合(剪裁);
2、忽略特征之间的相关性;
3、对噪声数据敏感;ps:噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰。
处理缺失数据的方法:
1、中位数(数值型)或众数(类别型);ps:众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平;
2、使用其他的训练数据的相应特征做加权补充;