线性回归分析及预测

参见

简介

线性回归分析是基于一系列对残差的假设而进行的回归过程，因此只得到回归方程并不是完整的回归分析，还需要进行一系列的分析和有效性检验：残差分析（P-P图）、拟合优度检验（R）、回归方程显著性检验（F检验）、回归系数显著性检验（t检验）等。如果有不能通过的假设项，我们需要删除异常值、筛选变量等方法重新建立模型。

流程

模型假设

关于回归模型 $y=\beta_0+\beta_1x+\beta_2x+...+\beta_p+\epsilon$ 的误差项 $\epsilon$ 的假设：

随机误差服从均值为0；
随机误差方差一致；
随机误差相互独立；
随机误差是正太分布的随机变量；
基于上述假设，回归模型可以简化为 $y=\beta_0+\beta_1x+\beta_2x+...+\beta_p$

检验方法

残差分析

异常值判断标准

残差图(matlab中residual case order plot，残差-case number图)：残差区间线段在残差零点间较均匀分布；

正太性判断标准

标准化残差图(standardized residual,标准化残差-x图)：大约有95%的标准化残差在-2~+2区间
正太概率图（normal probability plot,标准化残差-正太分数图）：较多的点聚集在45°直线附近

回归方程总体显著性检验

总体显著性的F检验
原假设 $H_0: \beta_1=\beta_2=...=\beta_p=0$
备择假设 $Ha:至少有一个参数不为0$

拒绝法则
p-Value≤ $\alpha$ ，则拒绝 $H_0$ ，得出结论： $y与x_1,x_2,...x_p$ 之间存在一个显著关系。

系数显著性检验

单个系数显著性的t检验
对于任意参数 $\beta_i$
原假设 $H_0: \beta_i=0$
备择假设 $Ha: \beta_i≠0$
拒绝法则
p-Value≤ $\alpha$ ，则拒绝 $H_0$ ，得出结论： $\beta_i$ 在统计上是显著的。

预测

得到估计的回归方程后，可以进行估计和预测y值置信区间。

y的平均值的置信区间
y的一个个别值的置信区间

示例及分析

matlab进行回归分析及预测

线性回归

regress：输入变量y、x及 $\alpha$ ，输出系数阵b及置信区间bint,残差阵r及置信区间rint,统计信息stats（ $R^2$ 、F检验结果、t检验结果）

polyfit：polyfit输入变量x,y及n，输出系数矩阵p及误差项S；

残差分析

rcoplot：输入残差阵r及置信区间rint，输出残差图

预测值置信区间计算

polyval：polyval输入p、S，预测y的置信区间为y±DETA；

polyconf：输入p、S，得到y的置信区间为y±DETA；

结合上述matlab方法，以regress+rcoplot进行回归分析，polyfit(没办法？)+polyconf进行预测。

eg1:

品牌重量价格

FF5 17.8 2100

PP 16.1 6250

OOG 14.9 8370

EME 17.2 4000

BRU 13.1 8600

BU 15.9 6200

CST 16.2 6000

GTA 17.1 2580

WTGT 17.6 3400

SSAT 14.1 8000

建立一个估计的回归方程，并评价拟合优度，估计重量为15时的价格；

品牌	重量	价格
FF5	17.8	2100
PP	16.1	6250
OOG	14.9	8370
EME	17.2	4000
BRU	13.1	8600
BU	15.9	6200
CST	16.2	6000
GTA	17.1	2580
WTGT	17.6	3400
SSAT	14.1	8000

%%散点观测
x=[17.8,16.1,14.9,15.9,17.2,13.1,16.2,17.1,17.6,14.1];
y=[2100,6250,8370,6200,4000,8600,6000,2580,3400,8000];
scatter(x,y);
X=[ones(size(x,2),1),x'];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,X,alpha);%%观察stats，判断优度、方程总体显著性及方程系数显著性
rcoplot(r,rint);%观察残差分布，检出异常值

[p,S]=polyfit(x,y,1);
[Y,Deta]=polyconf(p,X,S);%Y±Deta即为预测值置信区间；

SPSS进行回归分析及预测

利用SPSS分析工具（线性回归）对原始数据进行分析：
1. 设置自变量和应变量
2. 添加正太概率分布图
3. 设置均值、单一y值置信区间计算
4. 获得拟合优度 $R^2$ 和ANOVA表中F检验对应p-Value
5. 获得残差概率分布图
6. 新增列分别为平均值的置信区间上下限、单一y值的置信区间上下限