方差 残差 离差

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Harrytsz/article/details/83185291

方差 残差 离差

标签(空格分隔): 统计学概念


1.总平方和 ( S S T ) (SST) 、回归平方和 ( S S R ) (SSR) 与残差平方和 ( S S T ) (SST)

得到 β ^ \hat{\beta} 后,可以把 Y Y 分解为可以被解释变量解释的 Y ^ \hat{Y} 和不能被解释的 u ^ \hat{u} 两部分:
Y = X β ^ + u ^ = Y ^ + u ^ Y = X \hat{\beta} + \hat{u} = \hat{Y} + \hat{u}

定义总平方和(原始值-平均值):

S S T = t = 1 T ( y t y ˉ ) 2 = t = 1 T y t 2 2 y ˉ t = 1 T y t + T y ˉ 2 SST = \sum_{t=1}^{T}(y_{t} - \bar{y})^{2} = \sum_{t=1}^{T}y_{t}^{2} - 2\bar{y}\sum_{t=1}^{T}y_{t} + T\bar{y}^{2}

其中 y ˉ \bar{y} y t y_{t} 的样本平均数,定义为 y ˉ = 1 T ( t = 1 T y t ) \bar{y} = \frac{1}{T}(\sum_{t=1}^{T}y_{t})

定义回归平方和为(回归值-均值):
S S R = t = 1 T ( y t ^ y ˉ ) 2 = Y ^ Y ^ T y ˉ 2 SSR = \sum_{t=1}^{T}(\hat{y_{t}} - \bar{y})^{2} = \hat{Y}·\hat{Y} - T\bar{y}^{2}

其中 y ˉ \bar{y} 的定义同上。

定义残差平方和为(原始值-回归值)
S S E = t = 1 T ( y t y t ^ ) 2 = t = 1 T u t ^ 2 = u ^ u ^ SSE = \sum_{t=1}^{T}(y_{t} - \hat{y_{t}})^{2} = \sum_{t=1}^{T}\hat{u_{t}}^{2} = \hat{u}·\hat{u}

三者之间的关系如下:
S S T = S S R + S S E SST = SSR + SSE

证明:

扫描二维码关注公众号,回复: 3698459 查看本文章

Y Y = ( X β ^ + u ^ ) ( X β ^ + u ^ ) = β ^ X X β ^ + u ^ u ^ + 2 β ^ X u ^ Y·Y = (X\hat{\beta} + \hat{u})(X\hat{\beta} + \hat{u}) = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u} + 2\hat{\beta}X\hat{u}

X u ^ = 0 X\hat{u} = 0 。代入上式得:
Y Y = β ^ X X β ^ + u ^ u ^ YY = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u}

从上式两侧同减 T y ˉ 2 T\bar{y}^{2} ,得:
S S T = S S R + S S E SST = SSR + SSE

S S E SSE (和方差、误差平方和):The sum of squares due to error

M S E MSE (均方差、方差): Mean squared error

R M S E RMSE (均方根、标准差):Root mean squared error

R s q u a r e R-square (确定系数):Coefficient of determination

A d j u s t e d R s q u a r e Adjusted R-square Degree-of-freedom adjusted coefficient of determination

下面对以上几个名词进行详细的解释:

(1) S S E SSE (和方差、残差):
该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下:
S S E = i = 1 n w i ( y i y i ^ ) 2 SSE = \sum_{i=1}^{n}w_{i}(y_{i}-\hat{y_{i}})^{2}
SSE 越接近于 0 ,说明模型选择和拟合更好,数据预测也越成功。

(2) M S E MSE (均方差):
该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是 S S E / n SSE/n ,和 S S E SSE 没有太大的区别,计算公式如下:
M S E = S S E / n = 1 n i = 1 n w i ( y i y i ^ ) 2 MSE = SSE/n = \frac{1}{n}\sum_{i=1}^{n}w_{i}(y_{i} - \hat{y_{i}})^{2}

(3) R M S E RMSE (均方根):
该统计参数,也叫作回归系统的拟合标准差,是MSE 的平方根,计算公式如下:

注:在这之前,所有的误差参数都是基于预测值( y ^ \hat{y} )和原始值( y y )之间的误差(即点对点)。从下面开始是所有的误差都是相对于原始数据平均值(\bar{y}) 而展开的(即点对全)。

(4) R s q u a r e ( ) R-square(确定系统)
在解释确定系统之前,先来介绍另外两个参数 S S R SSR S S T SST ,因为确定系数就是由它们两个决定的。

  • S S R : SSR: (Sum of Squares of the Regression)即预测数据与原始数据均值之差的平方和,定义公式如下:
    S S R = i = 1 n w i ( y i ^ y i ˉ ) 2 SSR = \sum_{i=1}^{n}w_{i}(\hat{y_{i}} - \bar{y_{i}})^{2}
  • S S T : SST: (Total Sum of Squares)即原始数据和均值之差的平方和,定义公式如下:
    S S T = i = 1 n w i ( y i y i ˉ ) 2 SST = \sum_{i=1}^{n}w_{i}(y_{i} - \bar{y_{i}})^{2}

细心的网友会发现, S S T = S S E + S S R SST = SSE + SSR ,确定系数定义为 S S R SSR S S T SST 的比值,故:
R s q u a r e = S S R S S T = S S T S S E S S T = 1 S S E S S T R-square = \frac{SSR}{SST} = \frac{SST - SSE}{SST} = 1 - \frac{SSE}{SST}

其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0,1],越接近1,表明方程的变量对 y 的解释能力越强,这个模型对数据拟合的也较好。

猜你喜欢

转载自blog.csdn.net/Harrytsz/article/details/83185291