方差残差离差

标签（空格分隔）：统计学概念

1.总平方和 $(SST)$ 、回归平方和 $(SSR)$ 与残差平方和 $(SST)$

得到 $\hat{\beta}$ 后，可以把 $Y$ 分解为可以被解释变量解释的 $\hat{Y}$ 和不能被解释的 $\hat{u}$ 两部分：
$Y = X \hat{\beta} + \hat{u} = \hat{Y} + \hat{u}$

定义总平方和（原始值-平均值）:

$SST = \sum_{t=1}^{T}(y_{t} - \bar{y})^{2} = \sum_{t=1}^{T}y_{t}^{2} - 2\bar{y}\sum_{t=1}^{T}y_{t} + T\bar{y}^{2}$

其中 $\bar{y}$ 是 $y_{t}$ 的样本平均数，定义为 $\bar{y} = \frac{1}{T}(\sum_{t=1}^{T}y_{t})$ 。

定义回归平方和为（回归值-均值）:
$SSR = \sum_{t=1}^{T}(\hat{y_{t}} - \bar{y})^{2} = \hat{Y}·\hat{Y} - T\bar{y}^{2}$

其中 $\bar{y}$ 的定义同上。

定义残差平方和为（原始值-回归值）
$SSE = \sum_{t=1}^{T}(y_{t} - \hat{y_{t}})^{2} = \sum_{t=1}^{T}\hat{u_{t}}^{2} = \hat{u}·\hat{u}$

三者之间的关系如下:
$SST = SSR + SSE$

证明：

扫描二维码关注公众号，回复： 3698459 查看本文章

$Y·Y = (X\hat{\beta} + \hat{u})(X\hat{\beta} + \hat{u}) = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u} + 2\hat{\beta}X\hat{u}$

由 $X\hat{u} = 0$ 。代入上式得：
$YY = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u}$

从上式两侧同减 $T\bar{y}^{2}$ ，得：
$SST = SSR + SSE$

$SSE$ (和方差、误差平方和)：The sum of squares due to error

$MSE$ (均方差、方差)： Mean squared error

$RMSE$ (均方根、标准差)：Root mean squared error

$R-square$ (确定系数)：Coefficient of determination

$Adjusted R-square$ ： Degree-of-freedom adjusted coefficient of determination

下面对以上几个名词进行详细的解释：

（1） $SSE$ （和方差、残差）：
该统计参数计算的是拟合数据和原始数据对应点的误差的平方和，计算公式如下：
$SSE = \sum_{i=1}^{n}w_{i}(y_{i}-\hat{y_{i}})^{2}$
SSE 越接近于 0 ,说明模型选择和拟合更好，数据预测也越成功。

（2） $MSE$ （均方差）：
该统计参数是预测数据和原始数据对应点误差的平方和的均值，也就是 $SSE/n$ ，和 $SSE$ 没有太大的区别，计算公式如下：
$MSE = SSE/n = \frac{1}{n}\sum_{i=1}^{n}w_{i}(y_{i} - \hat{y_{i}})^{2}$

(3) $RMSE$ (均方根)：
该统计参数，也叫作回归系统的拟合标准差，是MSE 的平方根，计算公式如下：

注：在这之前，所有的误差参数都是基于预测值（ $\hat{y}$ ）和原始值（ $y$ ）之间的误差（即点对点）。从下面开始是所有的误差都是相对于原始数据平均值（\bar{y}）而展开的（即点对全）。

(4) $R-square(确定系统)$ ：
在解释确定系统之前，先来介绍另外两个参数 $SSR$ 和 $SST$ ，因为确定系数就是由它们两个决定的。

$SSR:$ (Sum of Squares of the Regression)即预测数据与原始数据均值之差的平方和，定义公式如下：
$SSR = \sum_{i=1}^{n}w_{i}(\hat{y_{i}} - \bar{y_{i}})^{2}$
$SST:$ (Total Sum of Squares)即原始数据和均值之差的平方和，定义公式如下：
$SST = \sum_{i=1}^{n}w_{i}(y_{i} - \bar{y_{i}})^{2}$

细心的网友会发现， $SST = SSE + SSR$ ，确定系数定义为 $SSR$ 和 $SST$ 的比值，故：
$R-square = \frac{SSR}{SST} = \frac{SST - SSE}{SST} = 1 - \frac{SSE}{SST}$

其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0,1]，越接近1，表明方程的变量对 y 的解释能力越强，这个模型对数据拟合的也较好。

方差 残差 离差

方差 残差 离差

猜你喜欢

方差残差离差

方差残差离差