简介

在线性回归计算(Linear Regression) 中，有三个非常重要的概念：
$SST=\sum_{i=1}^n (y_i-\bar y)^2$ ，总离差平方和（Sum of Squares Total）；
$SSE=\sum_{i=1}^n (y_i-\hat y_i)^2$ ，残差平方和（Sum of Squared Errors）；
$SSR=\sum_{i=1}^n (\hat y_i-\bar y)^2$ ，回归平方和（Regression Sum of Squares）。

三者还存在下列关系：
$SST=SSR+SSE$

即：
$\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2$

这个结论很重要，表明了三者的关系，同时也简化了计算。但是结论似乎很奇怪，因为根据常识，当 $a + b = c$ 成立的时候， $a^2 + b^2 = c^2$ 是不能保证一定成立的，所以我花时间推导计算了一下，发现如果需要以上等式成立，只需要证明以下结果即可：
$\sum \left(\hat{y_i} - \bar{y_i} \right) \left( y_i - \hat{y_i} \right) = 0$

然而发现这个等式还真不好证明，在查阅了大量资料后，总算完成了证明，过程如下所示。

证明

最小二乘回归的基本原理是将误差的平方和最小化。我们可以使用微积分找到参数 $\beta_0$ 和 $\beta_1$ 的方程式，以使平方误差之和最小。

设（注：为方便直观，在证明过程中省略求和的上下限） $S = \displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum \left(y_i - \hat{y_i} \right)^2= \sum \left(y_i - \beta_0 - \beta_1x_i\right)^2$

我们需要找到 $\beta_0$ 和 $\beta_1$ 使总和 $S$ 最小的值. 我们首先以 $S$ 相对于 $\beta_0$ 的偏导数并将其设置为零开始。

$\frac{\partial{S}}{\partial{\beta_0}} = \sum 2\left(y_i - \beta_0 - \beta_1x_i\right)^1(-1) = 0$

即
$\sum \left(y_i - \beta_0 - \beta_1x_i\right) = 0$

或者
$\sum \left(y_i - \hat{y_i} \right) = 0 \qquad (eqn.1)$

因此，残差之和为零（如预期）。重新排列并求解 $\beta_0$ ，
$\sum \beta_0 = \sum y_i -\beta_1 \sum x_i$

$n\beta_0 = \sum y_i -\beta_1 \sum x_i$

$\beta_0 = \frac{1}{n}\sum y_i -\beta_1 \frac{1}{n}\sum x_i$

现在取相对于 $\beta_1$ 的部分 $S$ 并将其设置为零，
$\frac{\partial{S}}{\partial{\beta_1}} = \sum 2\left(y_i - \beta_0 - \beta_1x_i\right)^1 (-x_i) = 0$

然后除以-2并重新排列，

$\sum x_i \left(y_i - \beta_0 - \beta_1x_i\right) = 0$

即：
$\sum x_i \left(y_i - \hat{y_i} \right) = 0$

又因为 $\hat{y_i} = \beta_0 + \beta_1x_i$ ，所以
$x_i = \frac{1}{\beta_1}\left( \hat{y_i} - \beta_0 \right) = \frac{1}{\beta_1}\hat{y_i} -\frac{\beta_0}{\beta_1}$

最后，再将其代入上面的方程式，即可得到预期的表达式：
$\sum x_i \left(y_i - \hat{y_i} \right) = 0$

$\sum \left(\frac{1}{\beta_1}\hat{y_i} - \frac{\beta_0}{\beta_1}\right) \left(y_i - \hat{y_i} \right) = 0$

$\frac{1}{\beta_1}\sum \hat{y_i} \left(y_i - \hat{y_i} \right) - \frac{\beta_0}{\beta_1} \sum \left(y_i - \hat{y_i} \right)= 0$

现在，第二项为零（由 $eqn.1$ 表示），因此，我们立即得到所需的结果：
$\sum \hat{y_i} \left(y_i - \hat{y_i} \right) = 0 \qquad (eqn. 2)$

最终，根据 $eqn.1 - \bar y * eqn.2$ 可得
$\sum \hat{y_i} \left(y_i - \hat{y_i} \right) - \bar y \sum \left(y_i - \hat{y_i} \right) = 0$

即
$\sum \left(\hat{y_i} - \bar{y_i} \right) \left( y_i - \hat{y_i} \right) = 0$

综上，我们最终可以得到以下结论：
$\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2$

参考资料

[1] https://stats.stackexchange.com/questions/207841/why-is-sst-sse-ssr-one-variable-linear-regression/401299#401299
[2] https://math.stackexchange.com/questions/709419/prove-sst-ssessr
[3] https://web.njit.edu/~wguo/Math644_2012/Math644_Chapter%201_part4.pdf

郝伟老师（安徽理工大学）

发布了326 篇原创文章 · 获赞 94 · 访问量 19万+

他的留言板关注

证明：SST=SSE+SSR

简介

证明

参考资料

猜你喜欢