版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/charie411/article/details/72780664
参见
简介
线性回归分析是基于一系列对残差的假设而进行的回归过程,因此只得到回归方程并不是完整的回归分析,还需要进行一系列的分析和有效性检验:残差分析(P-P图)、拟合优度检验(R)、回归方程显著性检验(F检验)、回归系数显著性检验(t检验)等。如果有不能通过的假设项,我们需要删除异常值、筛选变量等方法重新建立模型。
流程
模型假设
关于回归模型
y=β0+β1x+β2x+...+βp+ϵ
的误差项
ϵ
的假设:
- 随机误差服从均值为0;
- 随机误差方差一致;
- 随机误差相互独立;
- 随机误差是正太分布的随机变量;
基于上述假设,回归模型可以简化为y=β0+β1x+β2x+...+βp
检验方法
残差分析
异常值判断标准
- 残差图(matlab中residual case order plot,残差-case number图):残差区间线段在残差零点间较均匀分布;
正太性判断标准
- 标准化残差图(standardized residual,标准化残差-x图):大约有95%的标准化残差在-2~+2区间
- 正太概率图(normal probability plot,标准化残差-正太分数图):较多的点聚集在45°直线附近
回归方程总体显著性检验
总体显著性的F检验
原假设H0:β1=β2=...=βp=0
备择假设Ha:至少有一个参数不为0 拒绝法则
p-Value≤α ,则拒绝H0 ,得出结论:y与x1,x2,...xp 之间存在一个显著关系。
系数显著性检验
单个系数显著性的t检验
对于任意参数βi
原假设H0:βi=0
备择假设Ha:βi≠0
拒绝法则
p-Value≤α ,则拒绝H0 ,得出结论:βi 在统计上是显著的。
预测
得到估计的回归方程后,可以进行估计和预测y值置信区间。
y的平均值的置信区间
y的一个个别值的置信区间
示例及分析
matlab进行回归分析及预测
线性回归
残差分析
- rcoplot:输入残差阵r及置信区间rint,输出残差图
预测值置信区间计算
结合上述matlab方法,以regress+rcoplot进行回归分析,polyfit(没办法?)+polyconf进行预测。
eg1:
品牌 重量 价格 FF5 17.8 2100 PP 16.1 6250 OOG 14.9 8370 EME 17.2 4000 BRU 13.1 8600 BU 15.9 6200 CST 16.2 6000 GTA 17.1 2580 WTGT 17.6 3400 SSAT 14.1 8000 建立一个估计的回归方程,并评价拟合优度,估计重量为15时的价格;
%%散点观测
x=[17.8,16.1,14.9,15.9,17.2,13.1,16.2,17.1,17.6,14.1];
y=[2100,6250,8370,6200,4000,8600,6000,2580,3400,8000];
scatter(x,y);
X=[ones(size(x,2),1),x'];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,X,alpha);%%观察stats,判断优度、方程总体显著性及方程系数显著性
rcoplot(r,rint);%观察残差分布,检出异常值
[p,S]=polyfit(x,y,1);
[Y,Deta]=polyconf(p,X,S);%Y±Deta即为预测值置信区间;
SPSS进行回归分析及预测
- 利用SPSS分析工具(线性回归)对原始数据进行分析:
- 设置自变量和应变量
- 添加正太概率分布图
- 设置均值、单一y值置信区间计算
- 获得拟合优度
R2 和ANOVA表中F检验对应p-Value
- 获得残差概率分布图
- 新增列分别为平均值的置信区间上下限、单一y值的置信区间上下限
- 设置自变量和应变量