通过线性回归得到回归参数后,可以通过计算判定系数
R 2
来评估回归函数的拟合优度。判定系数
R 2
定义如下:
R 2 = S S R S S T = 1 − S S E S S T
其中,
S S R = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2
,
S S E = ∑ i = 1 n ( y i − y ̂ i ) 2
和
S S T = ∑ i = 1 n ( y i − y ¯ ) 2
。
R 2
越接近1,回归函数的拟合优度越大。上式可改写成
S S T = S S R + S S E
,即:
∑ i = 1 n ( y i − y ¯ ) 2 = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2 + ∑ i = 1 n ( y i − y ̂ i ) 2
为了理解
R 2
,我们有必要先回顾一下线性回归的通式:
⎧ ⎩ ⎨ ⎪ ⎪ y ̂ i = f ( x ) = θ 0 + ∑ j = 1 n θ j x j i y i = y ̂ i + ϵ i
其中,
y i
实际上由
y ̂ i
和
ϵ i
组成,
y ̂ i
随
x i
变化而变化。令
x 0 i = 1
,
y ̂ i = θ 0 + ∑ j = 1 n θ j x j i
可被改写成
y ̂ i = θ T x i
。将上式改写成向量和矩阵的形式:
⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1 1 ⋮ 1 x 1 1 x 1 2 x 1 m x 2 1 x 2 2 x 2 m … … … x n 1 x n 2 x n m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y ̂ 1 y ̂ 2 ⋮ y ̂ m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y ̂ 1 y ̂ 2 ⋮ y ̂ m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ + ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ϵ 1 ϵ 2 ⋮ ϵ m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥
当
θ ≠ 0
时,
Y ̂
是
X
的一个线性组合,即
Y ̂
存在于由
X
的列向量所展开的列空间中。对于一次幂的线形回归,
X
的列空间即是一个超平面,
Y ̂
是存在于面内的一个向量(即
Y
在面上的投影)。为了使得残差最小化,
ϵ
是
Y
垂直于面方向上的投影。在三维中的几何意义如下图(文中
θ
即图中
β
,图中
X i
表示列向量,图
取自 ):
因为
ϵ
垂直于
X
的列空间,所以
ϵ
垂直于
X
的所有列向量,即
X T ϵ = 0
。又因
ϵ = Y − X θ
,得:
X T ( Y − X θ ) = 0 X T Y = X T X θ θ = ( X T X ) − 1 X T Y Y ̂ = X θ = X ( X T X ) − 1 X T Y
根据
Y ̂ = X θ = X ( X T X ) − 1 X T Y
,我们得到了投影矩阵
P = X ( X T X ) − 1 X T
。
Y ̂ = P Y
,投影矩阵
P
乘以
Y
得到了
Y
属于
X
列空间的分量
Y ̂
。投影矩阵有两个性质需要了解:
P
是对称矩阵;
P T = ( X ( X T X ) − 1 X T ) T = X ( ( X T X ) − 1 ) T X T = X ( ( X T X ) T ) − 1 X T = X ( X T X ) − 1 X T = P
P 2 = P
。
P 2 = P T P = X ( X T X ) − 1 X T X ( X T X ) − 1 X T = X ( X T X ) − 1 X T X ( X T X ) − 1 X T = X ( X T X ) − 1 X T = P
现在,我们可以开始推导判定系数公示
S S T = S S R + S S E
了。如下(
1 ∈ R m
):
S S T = ∑ i = 1 n ( y i − y ¯ ) 2 = ∑ i = 1 n [ ( y i − y ̂ i ) + ( y ̂ i − y ¯ ) ] 2 = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2 + ∑ i = 1 n ( y i − y ̂ i ) 2 + ∑ i = 1 n 2 ( y i − y ̂ i ) ( y ̂ i − y ¯ ) = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2 + ∑ i = 1 n ( y i − y ̂ i ) 2 + ∑ i = 1 n 2 ( y i − y ̂ i ) ( y ̂ i − y ¯ ) = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2 + ∑ i = 1 n ( y i − y ̂ i ) 2 + 2 ϵ ( Y ̂ − Y ¯ 1 ) = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2 + ∑ i = 1 n ( y i − y ̂ i ) 2 + 2 ϵ ( P Y − Y ¯ 1 ) = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2 + ∑ i = 1 n ( y i − y ̂ i ) 2 + 2 ϵ T Y ̂ − 2 Y ¯ ϵ T 1
因为
ϵ
垂直于
X
的列空间,且
Y ̂
属于
X
的列空间,所以
ϵ T Y ̂ = 0
;又因为
1 = x 0 i ∈ R m
(
1
属于
X
的列空间),所以
ϵ T 1 = 0
。因此:
S S T = ∑ i = 1 n ( y ̂ i − y ¯ i ) 2 + ∑ i = 1 n ( y i − y ̂ i ) 2 + 2 ϵ T Y ̂ − 2 Y ¯ ϵ T 1 = S S R + S S E