机器学习--XGBoost

1、模型思想

XGBoost是GBDT改良版，都是通过多个弱学习器，不断地减少残差。GBDT主要是对残差求一阶导，向负梯度的方向拟合残差，而XGBoost运用了泰勒展开，考虑到了二阶导数。

2、公式推导

每次的迭代都是前面的弱学习器组合上新的学习器，表示为：

{\hat{y}}_{i}^{(t)} = {\hat{y}}_{i}^{(t - 1)} + f_{t} (x_{i})

$\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)}+f_t(x_i)$
目标函数可以表示为：

l o s s = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{(t - 1)} + f_{t} (x_{i})) + Ω

$loss = \sum^n_{i=1}l(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega$
其中

Ω

$\Omega$ 是正则项，为了防止过拟合，对树的数量和叶子结点的指加入了惩罚项：

Ω = γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}

$\Omega = \gamma T + \frac{1}{2}\lambda\sum^T_{j=1}w_j^2$
将

l (y_{i}, {\hat{y}}_{i}^{(t - 1)})

$l(y_i,\hat{y}_i^{(t-1)})$ 看作是

x

$x$ ，

f_{t} (x_{i})

$f_t(x_i)$ 看作是

Δ x

$\Delta x$ ，对损失函数进行泰勒展开：

l o s s \approx \sum_{i = 1}^{N} [l (y_{i}, {\hat{y}}_{i}^{(t - 1)}) + g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω

$loss \approx \sum^N_{i=1} [ l(y_i,\hat{y}_i^{(t-1)}) +g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega$
其中

g_{i}

$g_i$ 和

h_{i}

$h_i$ 分别是一阶导和二阶导，这个导数取决于选择什么损失函数，例如MAE，MSE。

l (y_{i}, {\hat{y}}_{i}^{(t - 1)})

$l(y_i,\hat{y}_i^{(t-1)})$ 这一项，是由前面的弱学习器组成，不会发生改变，可以看成常数项，然后损失函数可以变成：

l o s s \approx \sum_{i = 1}^{N} （ g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})) + γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}

$loss \approx \sum^N_{i=1} （g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i))+\gamma T + \frac{1}{2}\lambda\sum^T_{j=1}w_j^2$
1到N是遍历样本，比较繁琐，把遍历样本转化为遍历叶子节点，损失函数变成：

l o s s \approx \sum_{i = 1}^{T} [G_{i} w_{i} + \frac{1}{2} (H_{i} + λ) w_{i}^{2}] + γ T

$loss \approx \sum^T_{i=1}[G_iw_i+\frac{1}{2}(H_i+\lambda)w_i^2]+\gamma T$
其中

G_{i}

$G_i$ 和

H_{i}

$H_i$ 分别是这个叶子节点上所有数据的loss的一阶导数和二阶导数的和。
然后目标函数对

w_{i}

$w_i$ 求偏导数，让偏导数为0可以解除每个树叶节点的值

w_{i}

$w_i$ ：

\frac{\partial l o s s}{\partial w_{i}} = - \frac{1}{2} \sum_{i = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T = 0

$\frac{\partial loss}{\partial w_i} = -\frac{1}{2}\sum^T_{i=1}\frac{G_j^2}{H_j+\lambda} + \gamma T =0$
解得：

w_{i} = - \frac{G_{j}}{H_{j} + λ}

$w_i = -\frac{G_j}{H_j+\lambda}$
回带得到损失函数是：

l o s s = - \frac{1}{2} \sum_{i = 1}^{T} \frac{G_{i}^{2}}{H_{i}^{2} + λ} + γ T

$loss = -\frac{1}{2}\sum^T_{i=1}\frac{G_i^2}{H_i^2 +\lambda} +\gamma T$
与AdaBoost不同的是，AdaBoost基分类器用的是CART决策树，分隔的标准是gini系数，XGBoost则是用这个推出来的损失函数进行分隔。
让这个损失函数下降越多越好，也就是

\frac{G^{2}}{H + λ}

$\frac{G^2}{H+\lambda}$ 越大越好，所以XGBoost的信息增益是：

G a i n = \frac{1}{2} [\frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{(G_{L} + G_{R})^{2}}{H_{L} + H_{R} + λ}] - γ

$Gain = \frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+ \frac{G_R^2}{H_R+\lambda} - \frac{(G_L+G_R)^2}{H_L+H_R+\lambda}] - \gamma$
因为每次分隔会多出一个树，所以要减去

γ

$\gamma$ 。

1、模型思想

2、公式推导

猜你喜欢