版权声明:本文为博主原创文章,可以转载,但请添加原文链接。 https://blog.csdn.net/hwhsong/article/details/83794444
在回归模型中,常见违背基本假设的情况有异方差、自相关和异常值。
异方差
回归模型中的异方差是指随机误差项的方差不是一个常数,而是随着自变量的取值变化而变化。
由于不满足回归分析中的同方差的前提假设,异方差将可能带来以下问题:
- 对使用最小二乘法求解参数时,参数估计值虽然无偏,但是不是最小方差线性无偏估计。
- 参数的显著性检验失效。
- 回归方程的应用效果不理想。
造成异方差的常见原因:
- 模型缺少了某些解释变量,缺省变量本身的方差被包含在了随机误差的方差中。
- 模型本身选取有误,比如原本是非线性的,结果使用了线性模型。
- 其他原因,包括但不限于:
- 样本量过少
- 测量误差
- 异常数据
- 时序分析或使用面板数据等
异方差的检验:
- 残差图分析
- 等级相关系数法,又称斯皮尔曼检验
- 相关图分析
- Park检验与Gleiser检验
- Goldfeld-Quandt检验
- Breusch-Pagan检验
- White检验
- …
消除异方差的方法:
- 加权最小二乘法
- BOX-COX变换法
- 方差稳定性变换法等
自相关
回归模型中的自相关是指随机误差项的协方差,即变量前后数值之间存在相关关系。
由于不满足回归分析中的不相关的前提假设,自相关将可能带来以下问题:
- 对使用最小二乘法求解参数时,参数估计值虽然无偏,但是OLS估计量的方差不是最小的,估计量不是最优线性无偏估计量。
- OLS估计量的方差是有偏的。
- 显著性检验失败,包括t检验和F检验。
- 存在序列相关时,最小二乘估计量对抽样波动非常敏感。
- 回归方程的应用效果不理想,会带来较大的方差甚至错误。
造成自相关的常见原因:
- 模型遗漏关键变量,被遗漏变量在时间顺序上存在相关性。
- 错误的回归函数形式。
- 蛛网现象。
- 对数据加工整理而导致误差项之间出现自相关,比如处理序列数据时采用了不恰当的差分变换。
自相关的检验:
- 图示分析法
- 自相关系数法
- DW(Durbin-Watson)检验法等
消除自相关:
- 迭代法
- 差分法
- BOX-COX变换法
异常值
回归分析中,一些异常或者极端的观测值可能会引起较大的残差,进而影响回归拟合的效果。
异常值成因:
- 数据录入错误
- 数据测量错误
- 数据随机误差
- 缺少重要自变量
- 缺少观测数据
- 存在异方差
- 模型选择错误
消除方法:
- 重新核实数据
- 重新测量数据
- 删除或者重新观测数据
- 增加相应自变量
- 增加观测数据
- 消除异方差,如加权回归等
- 更改模型,如改成非线性回归