决策树知识思考

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/songyunli1111/article/details/83625575

1、决策树的模型策略和算法

模型:决策树的学习本质上就是从训练数据集中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看,学习也是基于训练数据集估计条件概率模型。

策略:决策树的损失函数通常是正则化的极大似然函数,学习的策略是以损失函数为目标函数的最小化。

算法:由于这个最小化问题是一个NP完全问题,现实中,我们通常采用启发式算法来近似求解这一最优化问题,因此得到的决策树是次最优的。该启发式算法可分为三步:特征选择、模型生成、决策树的剪枝

2、决策树的损失函数理解

对于决策树的模型和算法,都还好理解,但策略中的损失函数,有点奇怪

在这里插入图片描述

右边第一项表示模型对训练数据的预测误差大小,第二项表示模型的复杂度,也就是用叶节点表示,防止过拟化。

在这里插入图片描述
该问题参考:https://blog.csdn.net/wjc1182511338/article/details/76793598

我的理解:

因为如果一个叶子节点下的所有样本都是一个类别,那说明它的预测就没有偏差,对应的熵为0,而如果有不一样类别的样本,说明预测是有偏差的,这个误差就可以用熵来表示,但熵只考虑概率,不考虑样本的个数,因此乘上样本数为该节点的总误差。

3、信息增益和信息增益比

信息增益的问题:偏向于选择取值多的特征

信息增益比的问题:信息增益比通过加一个惩罚系数来克服信息增益的不足,但也带来了相反的问题,那就是它会偏向于选择取值少的特征,可以计算一下,当一个特征只有一个取值的时候,信息增益比的分母为0,信息增益比会无穷大,则一定会选它,但这样的选择也没有任何意义。

基于以上两者的缺点,实际的应用并不是直接选择信息增益比最大的特征,而是现在候选特征中找出信息增益高于平均水平的特征,然后在这些特征中再选择信息增益比最高的特征,去避免偏向于取值多或少的特征。

4、决策树算法比较

ID3和C4.5构建的不一定是二叉树,但CART一定是二叉树。

ID3和C4.5只能用于分类,CART可用于分类与回归。这应该也是为什么CART要是二叉树的原因(之一),因为如果是多叉树,那对于连续特征的划分就要切2刀以上,搜索复杂度很很高。

ID3,C4.5都是特征用过一次后就不再用了,因为它可以根据特征的取值个数构造对应的多叉树,而对于CART只能构造二叉树,因此一个特征可能使用多次。

猜你喜欢

转载自blog.csdn.net/songyunli1111/article/details/83625575