决策树知识思考

模型：决策树的学习本质上就是从训练数据集中归纳出一组分类规则，使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看，学习也是基于训练数据集估计条件概率模型。

策略：决策树的损失函数通常是正则化的极大似然函数，学习的策略是以损失函数为目标函数的最小化。

算法：由于这个最小化问题是一个NP完全问题，现实中，我们通常采用启发式算法来近似求解这一最优化问题，因此得到的决策树是次最优的。该启发式算法可分为三步：特征选择、模型生成、决策树的剪枝

对于决策树的模型和算法，都还好理解，但策略中的损失函数，有点奇怪

在这里插入图片描述

右边第一项表示模型对训练数据的预测误差大小，第二项表示模型的复杂度，也就是用叶节点表示，防止过拟化。

我的理解：

因为如果一个叶子节点下的所有样本都是一个类别，那说明它的预测就没有偏差，对应的熵为0，而如果有不一样类别的样本，说明预测是有偏差的，这个误差就可以用熵来表示，但熵只考虑概率，不考虑样本的个数，因此乘上样本数为该节点的总误差。

信息增益的问题：偏向于选择取值多的特征

信息增益比的问题：信息增益比通过加一个惩罚系数来克服信息增益的不足，但也带来了相反的问题，那就是它会偏向于选择取值少的特征，可以计算一下，当一个特征只有一个取值的时候，信息增益比的分母为0，信息增益比会无穷大，则一定会选它，但这样的选择也没有任何意义。

基于以上两者的缺点，实际的应用并不是直接选择信息增益比最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益比最高的特征，去避免偏向于取值多或少的特征。

ID3和C4.5构建的不一定是二叉树，但CART一定是二叉树。

ID3和C4.5只能用于分类，CART可用于分类与回归。这应该也是为什么CART要是二叉树的原因（之一），因为如果是多叉树，那对于连续特征的划分就要切2刀以上，搜索复杂度很很高。

ID3,C4.5都是特征用过一次后就不再用了，因为它可以根据特征的取值个数构造对应的多叉树，而对于CART只能构造二叉树，因此一个特征可能使用多次。