CART---回归

1.前言

分类与回归树(classification and regression tree,CART) 模型由Breiman等人在1984年提出,即可应用分类也可用于回归的一个树模型。CART是在给定输入随机变量 X X 条件下输出随机变量 Y Y 的条件概率分布的学习方法。
本文简单介绍了回归树的算法描述,辅以简单的例子以加深理解。
公式编辑技巧:行内公式:$公式$,块公式:$$公式$$,加粗:**符号**

2.回归树

决策树实际上就是用超平面对空间进行划分的一种方式,每次划分时,都是将结点的数据集一分为二,根据相应的决策方法,一步一步的进行延伸,即基于某种决策递归的构建二叉树的过程。

2.1.原理

假设 X X Y Y 分别为输入和输出变量,给定训练数据集: D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x N , y N ) } D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),\cdots (x_{N},y_{N}) \right \}
一个回归树的生成对应着对输入空间 X X 的划分,以及在划分的单元上的输出值。假设已将输入空间划分为 M M 个单元 R 1 R 2 R M R_{1},R_{2},\cdots R_{M} ,并且在每个单元上都有一个固定的输出值 c m c_{m} ,于是回归树模型可以表示为: f ( x ) = m = 1 M c m I ( x ϵ R m ) f\left ( x \right )=\sum_{m=1}^{M}c_{m}I\left ( x\epsilon R_{m} \right )
当输入的数据集划分确定后,我们可以使用平方误差 x i ϵ R m m ( y i f ( x i ) ) 2 \sum_{x_{i}\epsilon R_{m}}^{m}\left ( y_{i}-f\left ( x_{i} \right ) \right )^{2} 来表示回归树对于训练样本的预测误差,因此可以使用平方误差最小化的原则来求解每个单元上的最优输出值,已知单元上 c m c_{m} 是对应的 R m R_{m} 上的所有输入数据 x i x_{i} 所对应的输出值 y i y_{i} 的均值,即:
c m ^ = a v e ( y i x i ϵ R m ) \hat{c_{m}}=ave\left ( y_{i}|x_{i}\epsilon R_{m} \right )
然而在分类树中,我们常常采用信息熵等方法对输入空间进行分类,然而在回归树中我们采用启发式(依靠经验)的方法。随机性的选择一个 j j 对应的变量 x j x^{(j)} 和他的取值s,作为划分的一个切分点,即将两个输入空间切分成两个区域: R 1 ( j , s ) = { x x i < s } R_{1}(j,s)=\left \{ x|x_{i}< s \right \} ,和 R 2 ( j , s ) = { x x i s } R_{2}(j,s)=\left \{ x|x_{i}\geq s \right \} ,然后遍历所有特征,并获取其对应的值,找到最优的特征 j j 和对应的 s s ,从而使得损失函数最小,即求解:
m i n j , s [ m i n c 1 x i ϵ R 1 ( j , s ) i ( y i c 1 ) 2 + m i n c 2 x i ϵ R 2 ( j , s ) i ( y i c 2 ) 2 ] min_{j,s}[min_{c_{1}}\sum_{x_{i}\epsilon R_{1}(j,s)}^{i}\left ( y_{i}-c_{1} \right )^{2}+min_{c_{2}}\sum_{x_{i}\epsilon R_{2}(j,s)}^{i}\left ( y_{i}-c_{2} \right )^{2}]
即可找到最优输入变量 j j 及其所对应的 s s .

2.2算法步骤(最小二乘回归树)

step1: 在输入的数据集中启发性的选择一个变量 j j 及其对应的值,进一步将输入空间划分为两个区域;

step2: 用选定的特征 j j 以及其对应的 s s 划分区域并计算其对应的输出值:
R 1 ( j , s ) = { x x j < s } , R 2 ( j , s ) = { x x j s } R_{1}(j,s)=\left \{ x|x^{j}<s \right \},R_{2}(j,s)=\left \{ x|x^{j}\geq s \right \}
c ^ m = 1 N m x i ϵ R m y i , x ϵ R m , m = 1 , 2 \hat{c}_{m}=\frac{1}{N_{m}}\sum_{x_{i}\epsilon R_{m}}^{ }y_{i},x\epsilon R_{m},m=1,2
step3: 分别计算划分的两个区域的平方误差;
step4: 递归的遍历所有数据的特征,找到最优的 j j s s ,求解:
m i n j , s [ m i n c 1 x i ϵ R 1 ( j , s ) i ( y i c 1 ) 2 + m i n c 2 x i ϵ R 2 ( j , s ) i ( y i c 2 ) 2 ] min_{j,s}[min_{c_{1}}\sum_{x_{i}\epsilon R_{1}(j,s)}^{i}\left ( y_{i}-c_{1} \right )^{2}+min_{c_{2}}\sum_{x_{i}\epsilon R_{2}(j,s)}^{i}\left ( y_{i}-c_{2} \right )^{2}]
step5: 对划分后的子区域 R 1 R_{1} R 2 R_{2} ,再重复step1,step2,step3,直到满足所设定的条件为止;
step6: 将输入的区间划分为 M M 个区域,生成决策树;
啥也不说了,直接上例子了
下表是烟台市近几年的年平均降水量,其中(1,10)分别代表(2007,2018)

在这里插入图片描述
分析如下图所示:
在这里插入图片描述
将2019年带入预测的模型分别在深度为1和10的情况下得到了675.5mm和690.0mm,可见深度对回归树的影响甚大。
下图为加入线性回归预测后:

在这里插入图片描述
预测2019年大约降水量为291.6mm.
代码如下:

import numpy as np
import matplotlib.pyplot as plt
import matplotlib
from sklearn.tree import DecisionTreeRegressor as dtr
from sklearn import linear_model

matplotlib.rcParams['font.sans-serif']=['SimHei']
x = np.array(list(range(1,11))).reshape(-1,1)
x_1 = (2008,2009,2010,2011,2012,2013,2014,2015,2016,2017)
y = [620,628,640,630,637,641,661,667,684,690]
model1 = dtr(max_depth = 1)
model2 = dtr(max_depth = 10)
model3 = linear_model.LinearRegression()
model1.fit(x,y)
model2.fit(x,y)
model3.fit(x,y)

X_test = np.arange(0.0,10.0,0.01)[:,np.newaxis]
y_1 = model1.predict(X_test)
y_2 = model2.predict(X_test)
y_3 = model3.predict(X_test)
y_4 = model3.predict(11)
print(y_4)
plt.figure()
plt.scatter(x,y,s=20,edgecolor="black",c="darkorange",label="数据")
plt.plot(X_test,y_1,color="cornflowerblue",label="max_depth=1",linewidth=2)
plt.plot(X_test,y_2,color="yellowgreen",label="max_depth=10",linewidth=2)
plt.plot(X_test,y_3,color="red",label="regression",linewidth=2)
plt.xlabel("数据")
plt.ylabel("降雨量")
plt.title("回归树")
plt.legend()
plt.show()

本人小白一枚,文章欠妥之处还望指正!!

参考

本文参考了博主一个拉风的名字的文章。

猜你喜欢

转载自blog.csdn.net/zx_zhang01/article/details/82789091