UA MATH571A 一元线性回归II 统计推断2
β0的分布
将
β0关于
Yi的线性组合进一步展开
β^0=i=1∑N(N1−kiXˉ)Yi=i=1∑N(N1−kiXˉ)(β0+β1Xi+ϵi)=β0+β1Xˉ+N1i=1∑Nϵi−β0Xˉi=1∑Nki−β1Xˉi=1∑NkiXi−Xˉi=1∑Nkiϵi=β0+i=1∑N(N1−kiXˉ)ϵi
因此
β^0=β0+i=1∑N(N1−kiXˉ)ϵiE(β^0)=β0Var(β^0)=σ2i=1∑N(N1−kiXˉ)2=σ2i=1∑N(N21−2kiXˉ/N+ki2Xˉ2)=σ2(N1+i=1∑Nki2Xˉ2)β^0∼N(β0,σ2(N1+i=1∑Nki2Xˉ2))
知道
β^0的分布后,可以像对
β^1做统计推断那样,对
β^0进行推断。
拟合与预测
拟合与预测是一元线性回归另外两个常用的功能。拟合指的是变量X的值
Xh对应的变量Y的估计值:
Y^h=β^0+β^1Xh
其中
Xh是样本范围内的值。比如在之前的例子中,女性肌肉量与年龄的数据来源于40-79岁的女性群体,变量X的采样范围就是40-79岁。预测指的是对样本以外的变量X的值
Xh,计算变量Y的估计值。比如根据女性肌肉量与年龄的回归关系,计算80岁女性个体平均肌肉量,80岁不在样本内,所以这是预测。
拟合值的区间估计
与系数的估计量类似,
Y^h也是一个随机变量,所以根据模型与输入
Xh算出来的拟合值只是对
Y^h的一个观测。
Y^h服从正态分布,
E(Y^h)=E(β^0+β^1Xh)=β0+β1Xh=YhVar(Y^h)=Var(β^0+β^1Xh)=σ2(N1+∑i=1N(Xi−Xˉ)2(Xh−Xˉ)2)
所以方差的无偏估计为
s2{Y^h}=MSE(N1+∑i=1N(Xi−Xˉ)2(Xh−Xˉ)2)t=se{Y^h}Y^h−Yh=MSE(N1+∑i=1N(Xi−Xˉ)2(Xh−Xˉ)2)
Y^h−Yh∼t(N−2)
根据该分布可以给出下面的关系式,其中
1−α是置信水平
1−α=P(t(2α,N−2)<t<t(1−2α,N−2))
据此可以得到拟合值置信水平为
1−α的置信区间
Y^h−se(se{Y^h})t(1−2α,N−2)<Yh<Y^h+se(se{Y^h})t(1−2α,N−2)
预测值的区间估计
当
Xh是采样范围的新的观测值时,预测值
Y^h=β^0+β^1Xh
同样可以构造t分布
t=se{Y^h−Yh}Y^h−Yh∼t(N−2)
此时
Yh要当成是一个随机变量,
Var(Yh)=σ2,
Var(Y^h−Yh)=Var(Y^h)+Var(Yh)=σ2(1+N1+∑i=1N(Xi−Xˉ)2(Xh−Xˉ)2)t=se{Y^h−Yh}Y^h−Yh=MSE(1+N1+∑i=1N(Xi−Xˉ)2(Xh−Xˉ)2)
Y^h−Yh∼t(N−2)
所以预测值置信水平为
1−α的置信区间
Y^h−se(se{Y^h−Yh})t(1−2α,N−2)<Yh<Y^h+se(se{Y^h−Yh})t(1−2α,N−2)
数值例子:女性肌肉量与年龄的关系
上一篇我们已经建立了女性肌肉量与年龄的一元线性回归模型
Yi=β0+β1Xi+ϵi
其中
Yi表示女性个体的肌肉量,
Xi表示女性个体的年龄。现在我们按假设检验的思路对女性个体肌肉量会随着年龄增长而减少的猜想进行验证。
H0:β1≥0Ha:β1<0
原假设的含义是女性个体的肌肉量会随着年龄增长而变多或是保持不变,备择假设的含义是女性个体的肌肉量会随着年龄增长变少。从summary()的结果中读取统计量
t∗=se(β1^)β^1的值:
红框内的结果是
se(β1^),黄框中的结果是
t∗,单边检验中
t∗需要和
t(1−2α,N−2)比较,假设检验水平为1%
> -qt(1-(.01/2),58)
[1] -2.663287
显然
t∗<−2.663287,拒绝原假设,接受备择假设:女性个体的肌肉量会随着年龄增长变少。蓝框中的值并非是这个检验的p值,而是双边检验的p值。可以根据上面叙述的结论计算该检验的p值
> pt(-13.19,58)
[1] 2.084381e-19
灰框中是
β0相关的量,可以用来对
β0的推断。如果要估计40岁女性肌肉量的95%置信区间,可以采用下面的方法
> predict(Ex1.lm,newdata=data.frame(X=40),interval="conf",level=.95)
fit lwr upr
[1] 108.7467 104.566 112.9275
结果说明40岁女性的平均肌肉量是108.7467(我也不知道单位是啥。。。),95%的置信区间是[104.566,112.9275]说明如果有大量样本的话可以观察到95%的四十岁女性肌肉量都在这个区间内。如果要估计80岁女性肌肉量的95%置信区间,同样应该使用predict()函数,但interval要改为predict
> predict(Ex1.lm,newdata=data.frame(X=80),interval="pred",level=.9)
fit lwr upr
1 61.14692 47.04494 75.24891
结果说明80岁女性的平均肌肉量是61.14692,95%的置信区间是[47.04494,75.24891]。