判定系数推导 — Coefficient of Determination Derivation

通过线性回归得到回归参数后，可以通过计算判定系数 $R^2$ 来评估回归函数的拟合优度。判定系数 $R^2$ 定义如下：

R 2 = S S R S S T = 1 - S S E S S T

$R^2 = \frac {SSR}{SST} = 1 - \frac {SSE}{SST}$
其中，

SSR=∑i=1n(ŷ i−y¯i)2 $SSR = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2$ ，

SSE=∑i=1n(yi−ŷ i)2 $SSE = \sum\limits_{i=1}^n (y_i - \hat y_i)^2$ 和

SST=∑i=1n(yi−y¯)2 $SST = \sum\limits_{i=1}^n (y_i - \bar y)^2$ 。

R2 $R^2$ 越接近1，回归函数的拟合优度越大。上式可改写成

SST=SSR+SSE $SST = SSR + SSE$ ，即：

\sum i = 1 n (y i - y ¯) 2 = \sum i = 1 n (y ̂ i - y ¯ i) 2 + \sum i = 1 n (y i - y ̂ i) 2

$\sum\limits_{i=1}^n (y_i - \bar y)^2 = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2$

为了理解 $R^2$ ，我们有必要先回顾一下线性回归的通式：

⎧ ⎩ ⎨ ⎪ ⎪ y ̂ i = f (x) = θ 0 + \sum j = 1 n θ j x j i y i = y ̂ i + ϵ i

$\begin{cases} \hat y_i = f(x) = \theta_0 + \sum\limits_{j=1}^n \theta_j x_i^j \\ y_i = \hat y_i + \epsilon_i \end{cases}$
其中，

yi $y_i$ 实际上由

ŷ i $\hat y_i$ 和

ϵi $\epsilon_i$ 组成，

ŷ i $\hat y_i$ 随

xi $x_i$ 变化而变化。令

x0i=1 $x_i^0 = 1$ ，

ŷ i=θ0+∑j=1nθjxji $\hat y_i = \theta_0 + \sum\limits_{j=1}^n \theta_j x_i^j$ 可被改写成

ŷ i=θTxi $\hat y_i = \theta^Tx_i$ 。将上式改写成向量和矩阵的形式：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 11 ⋮ 1 x 11 x 12 x 1 m x 21 x 22 x 2 m \dots \dots \dots x n 1 x n 2 x n m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y ̂ 1 y ̂ 2 ⋮ y ̂ m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y ̂ 1 y ̂ 2 ⋮ y ̂ m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ + ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ϵ 1 ϵ 2 ⋮ ϵ m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\begin{cases} \begin{bmatrix} 1 & x_1^1 & x_1^2 & \dots & x_1^n \\ 1 & x_2^1 & x_2^2 & \dots & x_2^n \\ \vdots \\ 1 & x_m^1 & x_m^2 & \dots & x_m^n \\ \end{bmatrix} \begin{bmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{bmatrix} = \begin{bmatrix} \hat y_1 \\ \hat y_2 \\ \vdots \\ \hat y_m \end{bmatrix} \\ \\ \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix} = \begin{bmatrix} \hat y_1 \\ \hat y_2 \\ \vdots \\ \hat y_m \end{bmatrix} + \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_m \end{bmatrix} \end{cases}$
当

θ≠0 $\theta \neq \mathbf 0$ 时，

Ŷ $\hat Y$ 是

X $X$ 的一个线性组合，即

Ŷ $\hat Y$ 存在于由

X $X$ 的列向量所展开的列空间中。对于一次幂的线形回归，

X $X$ 的列空间即是一个超平面，

Ŷ $\hat Y$ 是存在于面内的一个向量（即

Y $Y$ 在面上的投影）。为了使得残差最小化，

ϵ $\epsilon$ 是

Y $Y$ 垂直于面方向上的投影。在三维中的几何意义如下图（文中

θ $\theta$ 即图中

β $\beta$ ，图中

Xi $X_i$ 表示列向量，图取自）：

因为 $\epsilon$ 垂直于 $X$ 的列空间，所以 $\epsilon$ 垂直于 $X$ 的所有列向量，即 $X^T \epsilon = \mathbf 0$ 。又因 $\epsilon = Y - X\theta$ ，得：

X T (Y - X θ) = 0 X T Y = X T X θ θ = (X T X) - 1 X T Y Y ̂ = X θ = X (X T X) - 1 X T Y

$X^T(Y - X\theta) = \mathbf 0 \\ X^TY = X^TX\theta \\ \theta = (X^TX)^{-1}X^TY \\ \hat Y = X\theta = X(X^TX)^{-1}X^TY$
根据

Ŷ =Xθ=X(XTX)−1XTY $\hat Y = X\theta = X(X^TX)^{-1}X^TY$ ，我们得到了投影矩阵

P=X(XTX)−1XT $P = X(X^TX)^{-1}X^T$ 。

Ŷ =PY $\hat Y = PY$ ，投影矩阵

P $P$ 乘以

Y $Y$ 得到了

Y $Y$ 属于

X $X$ 列空间的分量

Ŷ $\hat Y$ 。投影矩阵有两个性质需要了解：

$P$ 是对称矩阵；
$P T = (X (X T X) - 1 X T) T = X ((X T X) - 1) T X T = X ((X T X) T) - 1 X T = X (X T X) - 1 X T = P$ $P^T = (X(X^TX)^{-1}X^T)^T = X((X^TX)^{-1})^TX^T = X((X^TX)^T)^{-1}X^T = X(X^TX)^{-1}X^T = P$
$P^2 = P$ 。
$P 2 = P T P = X (X T X) - 1 X T X (X T X) - 1 X T = X (X T X) - 1 X T X (X T X) - 1        X T = X (X T X) - 1 X T = P$ $P^2 = P^TP = X(X^TX)^{-1}X^TX(X^TX)^{-1}X^T = X(X^TX)^{-1} \overbrace{X^TX(X^TX)^{-1}}X^T = X(X^TX)^{-1}X^T = P$

现在，我们可以开始推导判定系数公示 $SST = SSR + SSE$ 了。如下（ $\mathbf 1 \in R^m$ ）：

S S T = \sum i = 1 n (y i - y ¯) 2 = \sum i = 1 n [(y i - y ̂ i) + (y ̂ i - y ¯)] 2 = \sum i = 1 n (y ̂ i - y ¯ i) 2 + \sum i = 1 n (y i - y ̂ i) 2 + \sum i = 1 n 2 (y i - y ̂ i) (y ̂ i - y ¯) = \sum i = 1 n (y ̂ i - y ¯ i) 2 + \sum i = 1 n (y i - y ̂ i) 2 + \sum i = 1 n 2 (y i - y ̂ i) (y ̂ i - y ¯) = \sum i = 1 n (y ̂ i - y ¯ i) 2 + \sum i = 1 n (y i - y ̂ i) 2 + 2 ϵ (Y ̂ - Y ¯ 1) = \sum i = 1 n (y ̂ i - y ¯ i) 2 + \sum i = 1 n (y i - y ̂ i) 2 + 2 ϵ (P Y - Y ¯ 1) = \sum i = 1 n (y ̂ i - y ¯ i) 2 + \sum i = 1 n (y i - y ̂ i) 2 + 2 ϵ T Y ̂ - 2 Y ¯ ϵ T 1

$\begin{align*} & SST = \sum\limits_{i=1}^n (y_i - \bar y)^2 = \sum\limits_{i=1}^n [(y_i - \hat y_i) + (\hat y_i - \bar y)]^2 \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + \sum\limits_{i=1}^n 2(y_i - \hat y_i)(\hat y_i - \bar y) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + \sum\limits_{i=1}^n 2(y_i - \hat y_i)(\hat y_i - \bar y) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon(\hat Y -\bar Y\mathbf 1) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon(PY -\bar Y\mathbf 1) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon^T\hat Y - 2\bar Y\epsilon^T\mathbf 1 \end{align*}$
因为

ϵ $\epsilon$ 垂直于

X $X$ 的列空间，且

Ŷ $\hat Y$ 属于

X $X$ 的列空间，所以

ϵTŶ =0 $\epsilon^T \hat Y = 0$ ；又因为

1=x0i∈Rm $\mathbf 1 = x_i^0 \in R^m$ （

1 $\mathbf 1$ 属于

X $X$ 的列空间），所以

ϵT1=0 $\epsilon^T \mathbf 1 = 0$ 。因此：

S S T = \sum i = 1 n (y ̂ i - y ¯ i) 2 + \sum i = 1 n (y i - y ̂ i) 2 + 2 ϵ T Y ̂ - 2 Y ¯ ϵ T 1 = S S R + S S E

$SST = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon^T\hat Y - 2\bar Y\epsilon^T\mathbf 1 = SSR + SSE$

判定系数推导 — Coefficient of Determination Derivation

猜你喜欢