1.进行线性回归的步骤:
1.构建线性回归模型及目标,约束条件
目标函数,即,使得到的模型为残差平方和最小,而Lasso回归是构建一个惩罚函数,即回归系数绝对值之和小于一个常数。
2.参数估计
3.模型检验
模型的检验有:拟合优度检验,回归方程的显著性检验,解释变量的显著性检验,经济意义检验
F检验用来检验拟合的模型的显著性,t检验用来检验拟合的模型系数的显著性
4.经济预测
5.模型评价
2.多元线性回归模型的假设:
(1)解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。
(2)随机误差项具有零均值、同方差及序列不相关。
(3)解释变量与随机项不相关。
(4)随机项满足正态分布。
3.回归预测的评价指标:
(1)平均绝对误差(MAE)
(2)平均平方差/均方误差(MSE)
(3)均方根误差(RMSE)
(4)R Squared(判定系数)
其中,总平方和为
,
回归平方和为
,
残差平方和
R平方越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,回归的拟合程度就越好。
4.线性回归相关的知识点:
响应变量:因变量;
预测变量:自变量;
多重共线性:多个变量之间明显相关,此时需要进行变量的选择(特征选择);
逐步回归:基本思想是将变量逐个引入模型,每引入一个解释变量后都要对拟合的模型进行F检验,并对已经选出的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从方程中剔除为止,以保证最后得到的解释变量集是最优的。
AIC准则,即Akaike information criterion,是衡量统计模型拟合优良性的一种标准,所以优先考虑的模型应该是AIC值最小的那一个。(假设条件是模型的误差服从独立正态分布。)
BIC准则,即Bayesian information criterion,也称为贝叶斯信息准则,与AIC相似,在针对过拟合问题时,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。
拟合优度指标:标准误差,对y值与模型估计值之间的离差的一种度量。
在变量选择方面大概有三种方法:(1) 子集选择,这是传统的方法,包括逐步回归和最优子集等,对可能的部分子集拟合线性模型,利用判别准则(如AIC,BIC等)决定最优的模型。(2) 收缩方法(shrinkage method),又称正则化。主要是岭回归(ridge regression)和Lasso回归。它是通过最小二乘估计加入惩罚约束,使某些系数的估计为0。(3) 维数缩减。主要是主成分回归和偏最小二乘回归的方法。
后续还会不定期更新……(如,岭回归,过拟合,正则化,偏倚,稀疏解)