机器学习面试必知：LR中的共线性问题和解决方法 - 代码天地

机器学习面试必知：LR中的共线性问题和解决方法

其他 2019-03-11 15:14:21 阅读次数: 0

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中，例如决策树或者朴素贝叶斯，前者的建模过程时逐渐递进，每次都只有一个变量参与，这种机制含有抗多重共线性干扰的功能；后者假设变量之间是相互独立的。但对于回归算法来说，都要同时考虑多个预测因子，因此多重共线性不可避免。

我们先来看共线性的原理，假设k个自变量的多元线性回归模型： $y=\theta_{0}+\theta_{1}x_{1}+... +\theta_{k}x_{k}=\theta ^{T}x+\epsilon$ $\epsilon \sim N(0,\sigma^{2})$
利用最小二乘法可得到参数的估计为： $\hat{\theta}=X^{\dagger}y=(X^{T}X)^{-1}X^{T}y$ 如果X不是满秩的话，会有无穷多个解。如果变量之间存在共线性，那么X近乎是不满秩的， $X^{T}X$ 近乎是奇异的。
我们从统计学的角度来看： $Var(\hat{\theta}-\theta)=Var[(X^{T}X)^{-1}X^{T}\epsilon]$ $Var(\hat{\theta})=\sigma^{2}(X^{T}X)^{-1}$ $Var(\hat{\theta}_{i})=\frac{\sigma^{2}}{(n-1)Var(x_{j})}\cdot\frac{1}{1-R_{i}^{2}}$ 如果方差膨胀因子 $\frac{1}{1-R_{i}^{2}}$ 很大时，也就是 $R_{i}^{2}$ 趋向于1时，方差会变得异常大。
解决方法如下：

PCA等降维方法。因为在原始特征空间中变量之间相关性大，很容易想到通过降低维度的形式来去除这种共线性。
正则化。使用岭回归（L2）或者lasso回归（L1）或者elasticnet回归（L1+L2）
逐步回归法

猜你喜欢

转载自blog.csdn.net/Neekity/article/details/88056242

机器学习面试必知：LR中的共线性问题和解决方法

多重共线性问题的几种解决方法

线性回归2（共线性问题、岭回归、lasso算法）---机器学习

机器学习线性回归：谈谈多重共线性问题及相关算法

逻辑回归解决共线性问题

多重共线性问题如何解决？

回归分析中的多重共线性问题

多重共线性的解决方法

逻辑回归中解决多重共线性问题

特征选择和共线性问题

好好谈谈共线性问题

【Python计量】多重共线性的检验和解决

R语言之多重共线性的判别以及解决方法

LR编写grammar中的问题和解决方法

幂等性问题和解决方法

机器学习面试必知：SVM和LR的关系

[DataAnalysis]多元线性回归深入浅出-案例+模型假设+参数估计方法+模型评判方法+变量选择+多重共线性问题

多重共线性的处理方法

基因组共线性学习

机器学习面试必知：SVM中解决泛化问题

回归模型中多重共线性问题——逐步回归法、方差膨胀因子（VIF）、因子分析【含代码与解释】

基因共线性

系统学习机器学习之特征工程（三）--多重共线性

【机器学习笔记】：大话线性回归（三）多重共线性和强影响点分析

多重共线性检验-方差膨胀系数（VIF）-相关系数（机器学习）sklearn

回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法，回归系数

机器学习面试必知：XGBoost简介

机器学习面试必知：GBDT

机器学习面试必知：随机森林

【math】共线性的影响分析

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)