1.进行线性回归的步骤：

1.构建线性回归模型及目标，约束条件

目标函数，即，使得到的模型为残差平方和最小，而Lasso回归是构建一个惩罚函数，即回归系数绝对值之和小于一个常数。

2.参数估计

3.模型检验

模型的检验有：拟合优度检验，回归方程的显著性检验，解释变量的显著性检验，经济意义检验

F检验用来检验拟合的模型的显著性，t检验用来检验拟合的模型系数的显著性

4.经济预测

5.模型评价

2.多元线性回归模型的假设：

(1)解释变量是非随机的或固定的，且各X之间互不相关（无多重共线性）。

(2)随机误差项具有零均值、同方差及序列不相关。

(3)解释变量与随机项不相关。

(4)随机项满足正态分布。

3.回归预测的评价指标：

(1)平均绝对误差（MAE）

(2)平均平方差/均方误差（MSE）

(3)均方根误差（RMSE）

(4)R Squared（判定系数）

其中，总平方和为

，

回归平方和为

残差平方和

R平方越接近1，表明回归平方和占总平方和的比例越大，回归线与各观测点越接近，回归的拟合程度就越好。

4.线性回归相关的知识点：

响应变量：因变量；

预测变量：自变量；

多重共线性：多个变量之间明显相关，此时需要进行变量的选择（特征选择）；

逐步回归：基本思想是将变量逐个引入模型，每引入一个解释变量后都要对拟合的模型进行F检验，并对已经选出的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从方程中剔除为止，以保证最后得到的解释变量集是最优的。

AIC准则，即Akaike information criterion，是衡量统计模型拟合优良性的一种标准，所以优先考虑的模型应该是AIC值最小的那一个。（假设条件是模型的误差服从独立正态分布。）

BIC准则，即Bayesian information criterion,也称为贝叶斯信息准则，与AIC相似，在针对过拟合问题时，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

拟合优度指标：标准误差，对y值与模型估计值之间的离差的一种度量。

在变量选择方面大概有三种方法：(1) 子集选择，这是传统的方法，包括逐步回归和最优子集等，对可能的部分子集拟合线性模型，利用判别准则（如AIC，BIC等）决定最优的模型。(2) 收缩方法(shrinkage method)，又称正则化。主要是岭回归(ridge regression)和Lasso回归。它是通过最小二乘估计加入惩罚约束，使某些系数的估计为0。(3) 维数缩减。主要是主成分回归和偏最小二乘回归的方法。

后续还会不定期更新……（如，岭回归，过拟合，正则化，偏倚，稀疏解）

线性回归学习

1.进行线性回归的步骤：

2.多元线性回归模型的假设：

3.回归预测的评价指标：

4.线性回归相关的知识点：

猜你喜欢