机器学习：提升树（boosting tree）算法的思想

请点击上面公众号，免费订阅。　

《实例》阐述算法，通俗易懂，助您对算法的理解达到一个新高度。包含但不限于：经典算法，机器学习，深度学习，LeetCode 题解，Kaggle 实战。期待您的到来！

—

回顾

昨天编写了单个决策树用于回归的实现源码，它的构建实际上就是在不断寻找最优的划分属性和其取值的过程，分割后的节点若特征的取值都一样，或者包含的节点个数小于某个阈值，都将被标记为叶子节点，不再继续分裂，并且这个节点的取值为某个目标值，而不是像非叶子节点那样为某个最优特征及其分割值。

这是一个决策树用于回归的算法，以此为基础模型，如果按照某个求解目标组合到一起的好多棵决策树的模型，就称为提升树集成模型。

—

第二棵树的提升target

假如我们去银行贷款，银行会根据你的收入情况和年龄这两个特征去判断借给你的钱数，假如你今天上大一（18岁的），收入几乎为0，根据先验数据获知，对于没毕业的大学生，银行会贷款150元。根据10个输入的样本，我们得出了如下一个决策树，据此得出，大一新生小红从银行能借到的贷款为100元。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

预测值100元，与目标值150元相比，会得到一个50元的残差，这样，我们构建第二棵决策树时，提升的目标就是让最终的预测值尽可能的接近残差值50，注意，这是与提升方法Adaboost最大的区别，第二棵决策树是要对残差项拟合，因此此时的10个原初始样本对应的目标值都变为了残差项，比如小红的目标值变为了50！

再次构建第二颗决策树，可以看到这棵树的叶节点的取值都相对小一些，因为此时的拟合目标为残差，相对第一棵的初始拟合值要小。

0?wx_fmt=png