阿里云 05:机器学习算法详解 03 -- 回归模型诊断与优化

对刚入门的来说,看到这篇文章可能会懵,但是只需要知道在对线性回归模型进行建模的时候,一定要验证是否符合线性回归模型的基本假设即可,可以暂时不看推导过程,只记住结论。如果不符合,则会导致模型表现不好。模型的诊断与调优是一个系统化工作量很大的工程,该课程在讲解过程中简化了很多内容,更重要的提供了一些解决问题的方法思路。所以,该课程最重要的是把知识框架建立起来,然后循序渐进,在以后的学习过程中,逐渐补充深化所学的知识。


1. 违背基本假设

回归模型的基本假设:
在这里插入图片描述

1.1 常见不满足基本假设的情况

在这里插入图片描述

1.2 异方差(Heteroscedasticity)

在这里插入图片描述

1.2.1 造成异方差的常见原因:

  • 模型缺少了某些解释变量。缺省变量本身的方差被包含在了随机误差的方差之中。模型主要是通过分析影响因素的方差而生成的。也就是说,所有影响因素的方差(因素变化引起结果的改变,方差改变)都能够通过模型表征出来,那么这个模型的性能是符合要求的。但如果说,某一预测实际受到10个因素影响,但是在建模过程中,只选择了其中的8个,如果漏选的2个因素方差比较大(即对结果的影响比较大)的话,那么此时的模型是不好的。因为有些因素导致的变化,模型没有表征出来。即此时的误差项中还包含着对结果有影响的因素没有提出出来,此时的误差项不再是常数,而是包含2个漏选因素随着自变量取值变化而呈有股规律变化的误差,即异方差。如下例:在这里插入图片描述
  • 模型本身选取有误,比如原本是非线性的,结果使用了线性模型。
    在这里插入图片描述
    绿框是选取的模型(错误的模型,误把非线性当做线性) ,红色框才应该是正确的模型选择。右图是误差曲线,可以看出不是常值,而是呈现明显的变化规律,因此选取的模型中,漏选了影响因素,造成了异方差。
  • 其他原因:(1)样本量过少、(2)测量误差、(3)异常数据、(4)时序分析或使用面板数据等。

1.2.2 异方差的检验

  1. 残差图分析
    在这里插入图片描述
  2. 等级相关系数法
    在这里插入图片描述
  3. 其他常见的检验方法:
    在这里插入图片描述
  4. 制图分析
    在这里插入图片描述
    等级相关系数法检验异方差:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

1.2.3 消除异方差:加权最小二乘法

在这里插入图片描述
在这里插入图片描述

1.3 自相关

1.3.1 自相关的常见成因

在这里插入图片描述

1.3.2 自相关的检验

  1. 图示检验法和自相关系数法
    在这里插入图片描述
  2. DW检验法
    在这里插入图片描述
    一阶的含义,下一时刻的值只和前一时刻的值有关。Dl、Du 分别指上下界。
    在这里插入图片描述

1.3.3 消除自相关:迭代法

在这里插入图片描述

1.3.4 消除自相关:差分法

在这里插入图片描述

1.3.5 消除自相关:BOX-COX变换

在这里插入图片描述

1.3.6 自关联的检验

  1. 图示分析
    在这里插入图片描述
    接下来做 e t e_t e t 1 e_{t-1} 的图:
    在这里插入图片描述
  2. 自相关系数:
    在这里插入图片描述
  3. DW检验
    在这里插入图片描述
    在这里插入图片描述
  4. 迭代法
    在这里插入图片描述
  5. 差分法
    在这里插入图片描述

1.3.7 BOX-COX变换:异方差

在这里插入图片描述

1.3.8 BOX-COX变换:自相关

在这里插入图片描述

1.4 异常值

在这里插入图片描述
在这里插入图片描述


2. 自变量选择

在这里插入图片描述

2.1 自变量选择的准则

在这里插入图片描述
在这里插入图片描述
实例:
在这里插入图片描述
注意:在自变量合数发生变化时,需要重新对模型进行评估。

2.2 自变量选择方法

2.2.1 前进法

在这里插入图片描述

2.2.2 后退法

在这里插入图片描述

2.2.3 前进法&后退法比较

在这里插入图片描述
自变量互相独立,在现实生活中,一般不存在。

2.2.4 自变量选择:逐步回归法

在这里插入图片描述

3. 多重共线性

在这里插入图片描述

3.1 多重共线性诊断

3.1.1 直观判定法

在这里插入图片描述

3.1.2 方差扩大因子(VIF)

在这里插入图片描述

3.1.3 特征根判定法

在这里插入图片描述

3.2 消除多重共线性

在这里插入图片描述

3.3 多重共线性:案例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


4. 改进的回归

4.1 岭回归

在这里插入图片描述
在这里插入图片描述

4.1.1 岭迹图

在这里插入图片描述

4.1.2 岭迹分析

在这里插入图片描述
在第一幅图中,红圈所在的地方,在K接近0的区域,岭迹曲线趋于无穷,可以认为在此区域的K值,对模型影响较小,甚至可以忽略。

4.1.3 岭参数K的选择

在这里插入图片描述

4.1.4 领回归选择自变量

在这里插入图片描述

4.1.5 领回归案例

在这里插入图片描述

  1. 标准化自变量和因变量;
  2. 计算不同K值时的标准岭估计参数,绘制岭迹图;
    在这里插入图片描述
    右图中分析可知,beta-2和beta-3的相关性很强,因此可以去掉其中一个。
    在这里插入图片描述

4.2 LASSO回归

L1范数更倾向于将其中的一些系数置为零,即忽略一些自变量;L2范数基本上会将原来的自变量保留,只是会把影响不大的自变量的系数变得很小,接近于零而不等于零。
在这里插入图片描述
在这里插入图片描述

总结

  1. 课程纲要
    在这里插入图片描述
  2. 学习目标
    在这里插入图片描述
  3. 思考与练习
    在这里插入图片描述

课程链接:https://edu.aliyun.com/roadmap/ai?spm=5176.13944111.1409070.1.61cc28fcAV0KvR

发布了122 篇原创文章 · 获赞 94 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_39653948/article/details/105049566