线性回归学习

1.进行线性回归的步骤:

1.构建线性回归模型及目标,约束条件

        目标函数,即,使得到的模型为残差平方和最小,而Lasso回归是构建一个惩罚函数,即回归系数绝对值之和小于一个常数。

2.参数估计

3.模型检验

        模型的检验有:拟合优度检验,回归方程的显著性检验,解释变量的显著性检验,经济意义检验

        F检验用来检验拟合的模型的显著性,t检验用来检验拟合的模型系数的显著性

4.经济预测

5.模型评价


2.多元线性回归模型的假设:

(1)解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。

(2)随机误差项具有零均值、同方差及序列不相关。

(3)解释变量与随机项不相关。

(4)随机项满足正态分布。


3.回归预测的评价指标:

(1)平均绝对误差(MAE)


(2)平均平方差/均方误差(MSE)


(3)均方根误差(RMSE)


(4)R Squared(判定系数)


            其中,总平方和为

            

            回归平方和为

           ,

            残差平方和

         

            R平方越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,回归的拟合程度就越好。


4.线性回归相关的知识点:

        响应变量:因变量;

        预测变量:自变量;

        多重共线性:多个变量之间明显相关,此时需要进行变量的选择(特征选择);

        逐步回归:基本思想是将变量逐个引入模型,每引入一个解释变量后都要对拟合的模型进行F检验,并对已经选出的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从方程中剔除为止,以保证最后得到的解释变量集是最优的。

AIC准则,即Akaike information criterion,是衡量统计模型拟合优良性的一种标准,所以优先考虑的模型应该是AIC值最小的那一个。(假设条件是模型的误差服从独立正态分布。

BIC准则,即Bayesian information criterion,也称为贝叶斯信息准则,与AIC相似,在针对过拟合问题时,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

拟合优度指标:标准误差,对y值与模型估计值之间的离差的一种度量。

       在变量选择方面大概有三种方法:(1) 子集选择,这是传统的方法,包括逐步回归和最优子集等,对可能的部分子集拟合线性模型,利用判别准则(如AIC,BIC等)决定最优的模型。(2) 收缩方法(shrinkage method),又称正则化。主要是岭回归(ridge regression)和Lasso回归。它是通过最小二乘估计加入惩罚约束,使某些系数的估计为0。(3) 维数缩减。主要是主成分回归和偏最小二乘回归的方法。

        后续还会不定期更新……(如,岭回归,过拟合,正则化,偏倚,稀疏解)



猜你喜欢

转载自blog.csdn.net/m0_37215794/article/details/80828916