简介
在线性回归计算(Linear Regression) 中,有三个非常重要的概念:
S
S
T
=
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
SST=\sum_{i=1}^n (y_i-\bar y)^2
S S T = ∑ i = 1 n ( y i − y ˉ ) 2 ,总离差平方和(Sum of Squares Total);
S
S
E
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
SSE=\sum_{i=1}^n (y_i-\hat y_i)^2
S S E = ∑ i = 1 n ( y i − y ^ i ) 2 ,残差平方和(Sum of Squared Errors);
S
S
R
=
∑
i
=
1
n
(
y
^
i
−
y
ˉ
)
2
SSR=\sum_{i=1}^n (\hat y_i-\bar y)^2
S S R = ∑ i = 1 n ( y ^ i − y ˉ ) 2 ,回归平方和(Regression Sum of Squares)。
三者还存在下列关系:
S
S
T
=
S
S
R
+
S
S
E
SST=SSR+SSE
S S T = S S R + S S E
即:
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
+
∑
i
=
1
n
(
y
^
i
−
y
ˉ
)
2
\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2
i = 1 ∑ n ( y i − y ˉ ) 2 = i = 1 ∑ n ( y i − y ^ i ) 2 + i = 1 ∑ n ( y ^ i − y ˉ ) 2
这个结论很重要,表明了三者的关系,同时也简化了计算。但是结论似乎很奇怪,因为根据常识,当
a
+
b
=
c
a + b = c
a + b = c 成立的时候,
a
2
+
b
2
=
c
2
a^2 + b^2 = c^2
a 2 + b 2 = c 2 是不能保证一定成立的,所以我花时间推导计算了一下,发现如果需要以上等式成立,只需要证明以下结果即可:
∑
(
y
i
^
−
y
i
ˉ
)
(
y
i
−
y
i
^
)
=
0
\sum \left(\hat{y_i} - \bar{y_i} \right) \left( y_i - \hat{y_i} \right) = 0
∑ ( y i ^ − y i ˉ ) ( y i − y i ^ ) = 0
然而发现这个等式还真不好证明,在查阅了大量资料后,总算完成了证明,过程如下所示。
证明
最小二乘回归的基本原理是将误差的平方和最小化。 我们可以使用微积分找到参数
β
0
\beta_0
β 0 和
β
1
\beta_1
β 1 的方程式,以使平方误差之和最小。
设(注:为方便直观,在证明过程中省略求和的上下限)
S
=
∑
i
=
1
n
(
e
i
)
2
=
∑
(
y
i
−
y
i
^
)
2
=
∑
(
y
i
−
β
0
−
β
1
x
i
)
2
S = \displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum \left(y_i - \hat{y_i} \right)^2= \sum \left(y_i - \beta_0 - \beta_1x_i\right)^2
S = i = 1 ∑ n ( e i ) 2 = ∑ ( y i − y i ^ ) 2 = ∑ ( y i − β 0 − β 1 x i ) 2
我们需要找到
β
0
\beta_0
β 0 和
β
1
\beta_1
β 1 使总和
S
S
S 最小的值. 我们首先以
S
S
S 相对于
β
0
\beta_0
β 0 的偏导数并将其设置为零开始。
∂
S
∂
β
0
=
∑
2
(
y
i
−
β
0
−
β
1
x
i
)
1
(
−
1
)
=
0
\frac{\partial{S}}{\partial{\beta_0}} = \sum 2\left(y_i - \beta_0 - \beta_1x_i\right)^1(-1) = 0
∂ β 0 ∂ S = ∑ 2 ( y i − β 0 − β 1 x i ) 1 ( − 1 ) = 0
即
∑
(
y
i
−
β
0
−
β
1
x
i
)
=
0
\sum \left(y_i - \beta_0 - \beta_1x_i\right) = 0
∑ ( y i − β 0 − β 1 x i ) = 0
或者
∑
(
y
i
−
y
i
^
)
=
0
(
e
q
n
.
1
)
\sum \left(y_i - \hat{y_i} \right) = 0 \qquad (eqn.1)
∑ ( y i − y i ^ ) = 0 ( e q n . 1 )
因此,残差之和为零(如预期)。 重新排列并求解
β
0
\beta_0
β 0 ,
∑
β
0
=
∑
y
i
−
β
1
∑
x
i
\sum \beta_0 = \sum y_i -\beta_1 \sum x_i
∑ β 0 = ∑ y i − β 1 ∑ x i
n
β
0
=
∑
y
i
−
β
1
∑
x
i
n\beta_0 = \sum y_i -\beta_1 \sum x_i
n β 0 = ∑ y i − β 1 ∑ x i
β
0
=
1
n
∑
y
i
−
β
1
1
n
∑
x
i
\beta_0 = \frac{1}{n}\sum y_i -\beta_1 \frac{1}{n}\sum x_i
β 0 = n 1 ∑ y i − β 1 n 1 ∑ x i
现在取相对于
β
1
\beta_1
β 1 的部分
S
S
S 并将其设置为零,
∂
S
∂
β
1
=
∑
2
(
y
i
−
β
0
−
β
1
x
i
)
1
(
−
x
i
)
=
0
\frac{\partial{S}}{\partial{\beta_1}} = \sum 2\left(y_i - \beta_0 - \beta_1x_i\right)^1 (-x_i) = 0
∂ β 1 ∂ S = ∑ 2 ( y i − β 0 − β 1 x i ) 1 ( − x i ) = 0
然后除以-2并重新排列,
∑
x
i
(
y
i
−
β
0
−
β
1
x
i
)
=
0
\sum x_i \left(y_i - \beta_0 - \beta_1x_i\right) = 0
∑ x i ( y i − β 0 − β 1 x i ) = 0
即:
∑
x
i
(
y
i
−
y
i
^
)
=
0
\sum x_i \left(y_i - \hat{y_i} \right) = 0
∑ x i ( y i − y i ^ ) = 0
又因为
y
i
^
=
β
0
+
β
1
x
i
\hat{y_i} = \beta_0 + \beta_1x_i
y i ^ = β 0 + β 1 x i ,所以
x
i
=
1
β
1
(
y
i
^
−
β
0
)
=
1
β
1
y
i
^
−
β
0
β
1
x_i = \frac{1}{\beta_1}\left( \hat{y_i} - \beta_0 \right) = \frac{1}{\beta_1}\hat{y_i} -\frac{\beta_0}{\beta_1}
x i = β 1 1 ( y i ^ − β 0 ) = β 1 1 y i ^ − β 1 β 0
最后,再将其代入上面的方程式,即可得到预期的表达式:
∑
x
i
(
y
i
−
y
i
^
)
=
0
\sum x_i \left(y_i - \hat{y_i} \right) = 0
∑ x i ( y i − y i ^ ) = 0
∑
(
1
β
1
y
i
^
−
β
0
β
1
)
(
y
i
−
y
i
^
)
=
0
\sum \left(\frac{1}{\beta_1}\hat{y_i} - \frac{\beta_0}{\beta_1}\right) \left(y_i - \hat{y_i} \right) = 0
∑ ( β 1 1 y i ^ − β 1 β 0 ) ( y i − y i ^ ) = 0
1
β
1
∑
y
i
^
(
y
i
−
y
i
^
)
−
β
0
β
1
∑
(
y
i
−
y
i
^
)
=
0
\frac{1}{\beta_1}\sum \hat{y_i} \left(y_i - \hat{y_i} \right) - \frac{\beta_0}{\beta_1} \sum \left(y_i - \hat{y_i} \right)= 0
β 1 1 ∑ y i ^ ( y i − y i ^ ) − β 1 β 0 ∑ ( y i − y i ^ ) = 0
现在,第二项为零(由
e
q
n
.
1
eqn.1
e q n . 1 表示),因此,我们立即得到所需的结果:
∑
y
i
^
(
y
i
−
y
i
^
)
=
0
(
e
q
n
.
2
)
\sum \hat{y_i} \left(y_i - \hat{y_i} \right) = 0 \qquad (eqn. 2)
∑ y i ^ ( y i − y i ^ ) = 0 ( e q n . 2 )
最终,根据
e
q
n
.
1
−
y
ˉ
∗
e
q
n
.
2
eqn.1 - \bar y * eqn.2
e q n . 1 − y ˉ ∗ e q n . 2 可得
∑
y
i
^
(
y
i
−
y
i
^
)
−
y
ˉ
∑
(
y
i
−
y
i
^
)
=
0
\sum \hat{y_i} \left(y_i - \hat{y_i} \right) - \bar y \sum \left(y_i - \hat{y_i} \right) = 0
∑ y i ^ ( y i − y i ^ ) − y ˉ ∑ ( y i − y i ^ ) = 0
即
∑
(
y
i
^
−
y
i
ˉ
)
(
y
i
−
y
i
^
)
=
0
\sum \left(\hat{y_i} - \bar{y_i} \right) \left( y_i - \hat{y_i} \right) = 0
∑ ( y i ^ − y i ˉ ) ( y i − y i ^ ) = 0
综上,我们最终可以得到以下结论:
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
+
∑
i
=
1
n
(
y
^
i
−
y
ˉ
)
2
\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2
i = 1 ∑ n ( y i − y ˉ ) 2 = i = 1 ∑ n ( y i − y ^ i ) 2 + i = 1 ∑ n ( y ^ i − y ˉ ) 2
参考资料
[1] https://stats.stackexchange.com/questions/207841/why-is-sst-sse-ssr-one-variable-linear-regression/401299#401299 [2] https://math.stackexchange.com/questions/709419/prove-sst-ssessr [3] https://web.njit.edu/~wguo/Math644_2012/Math644_Chapter%201_part4.pdf