版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Harrytsz/article/details/83185291
方差 残差 离差
标签(空格分隔): 统计学概念
1.总平方和
(SST)、回归平方和
(SSR) 与残差平方和
(SST)
得到
β^ 后,可以把
Y 分解为可以被解释变量解释的
Y^ 和不能被解释的
u^ 两部分:
Y=Xβ^+u^=Y^+u^
定义总平方和(原始值-平均值):
SST=t=1∑T(yt−yˉ)2=t=1∑Tyt2−2yˉt=1∑Tyt+Tyˉ2
其中
yˉ 是
yt 的样本平均数,定义为
yˉ=T1(∑t=1Tyt) 。
定义回归平方和为(回归值-均值):
SSR=t=1∑T(yt^−yˉ)2=Y^⋅Y^−Tyˉ2
其中
yˉ 的定义同上。
定义残差平方和为(原始值-回归值)
SSE=t=1∑T(yt−yt^)2=t=1∑Tut^2=u^⋅u^
三者之间的关系如下:
SST=SSR+SSE
证明:
扫描二维码关注公众号,回复:
3698459 查看本文章
Y⋅Y=(Xβ^+u^)(Xβ^+u^)=β^XXβ^+u^u^+2β^Xu^
由
Xu^=0 。代入上式得:
YY=β^XXβ^+u^u^
从上式两侧同减
Tyˉ2 ,得:
SST=SSR+SSE
SSE(和方差、误差平方和):The sum of squares due to error
MSE(均方差、方差): Mean squared error
RMSE(均方根、标准差):Root mean squared error
R−square(确定系数):Coefficient of determination
AdjustedR−square: Degree-of-freedom adjusted coefficient of determination
下面对以上几个名词进行详细的解释:
(1)
SSE(和方差、残差):
该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下:
SSE=i=1∑nwi(yi−yi^)2
SSE 越接近于 0 ,说明模型选择和拟合更好,数据预测也越成功。
(2)
MSE(均方差):
该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是
SSE/n ,和
SSE 没有太大的区别,计算公式如下:
MSE=SSE/n=n1i=1∑nwi(yi−yi^)2
(3)
RMSE(均方根):
该统计参数,也叫作回归系统的拟合标准差,是MSE 的平方根,计算公式如下:
注:在这之前,所有的误差参数都是基于预测值(
y^)和原始值(
y)之间的误差(即点对点)。从下面开始是所有的误差都是相对于原始数据平均值(\bar{y}) 而展开的(即点对全)。
(4)
R−square(确定系统):
在解释确定系统之前,先来介绍另外两个参数
SSR 和
SST ,因为确定系数就是由它们两个决定的。
-
SSR:(Sum of Squares of the Regression)即预测数据与原始数据均值之差的平方和,定义公式如下:
SSR=i=1∑nwi(yi^−yiˉ)2
-
SST:(Total Sum of Squares)即原始数据和均值之差的平方和,定义公式如下:
SST=i=1∑nwi(yi−yiˉ)2
细心的网友会发现,
SST=SSE+SSR,确定系数定义为
SSR 和
SST 的比值,故:
R−square=SSTSSR=SSTSST−SSE=1−SSTSSE
其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0,1],越接近1,表明方程的变量对 y 的解释能力越强,这个模型对数据拟合的也较好。