模型选择——子集选择法

前言
最优子集法（best subset selection）
逐步选择法（stepwise selection）
如何选取最优

前言

这篇文章主要讲的是模型选择（model selection）中的一类方法：子集选择法（subsect selection），接下来两篇文章将介绍模型选择的其他两类方法：收缩法（shrinkage）和降维法（dimension reduction）。
首先为什么要进行模型选择呢？以线性回归模型为例，主要出于预测准确性（prediction accuracy）和模型解释度（model interpretability）两方面的考虑。

模型准确性
当 $n$ 没有远大于 $p$ 时，利用最小二乘拟合得到的预测结果方差会很大；当 $n < p$ 时，最小二乘法失效，得不到唯一的参数估计。
模型解释度
多元回归模型中的某些自变量，可能与因变量毫无关联，而最小二乘法得到的无关因素的参数系数未必刚好是 0，所以若加入这些无关因素，可能会影响模型解释度。

最优子集法（best subset selection）

算法：

记 $M_0$ 为空模型（null model）（无自变量）。该模型预测的结果均为样本均值。
For $k=1,2,\cdots,p$ ：
拟合所有 $C_p^k$ 个包含 $k$ 个自变量的模型；
从这 $C_p^k$ 个模型选取最优的模型，记为 $M_k$ 。这里的最优，在线性回归问题中，可以是最小 $R S S$ 或者最大 $R^2$ 。
从 $M_0,M_1,\cdots，M_p$ 中选取最优模型。选取标准可以是交叉验证的预测误差，或者 $C_p(AIC), BIC,$ 调整后的 $R^2$ 。

优点： 简单

缺点： 受计算限制， $p$ 较大时运算量太大。

逐步选择法（stepwise selection）

优点： 运算量较小
缺点： 未必能选取最佳模型

向前逐步选择

算法：

记 $M_0$ 为无自变量的空模型（null model）
For $k=1,2,\cdots,p-1$ ：
拟合所有 $p - k$ 个在 $M_k$ 基础上只增加一个自变量的模型；
从这 $p - k$ 个模型选取最优的模型，记为 $M_{k+1}$ 。这里的最优，在线性回归问题中，可以是最小 $R S S$ 或者最大 $R^2$ 。
从 $M_0,M_1,\cdots，M_p$ 中选取最优模型。选取标准可以是交叉验证的预测误差，或者 $C_p(AIC), BIC,$ 调整后的 $R^2$ 。

向后逐步选择

算法：

记 $M_p$ 为包含所有 $p$ 个自变量的模型（full model）
For $k=p,p-1,\cdots,1$ ：
拟合所有 $k$ 个在 $M_k$ 基础上只减少一个自变量的模型；
从这 $k$ 个模型选取最优的模型，记为 $M_{k-1}$ 。这里的最优，在线性回归问题中，可以是最小 $R S S$ 或者最大 $R^2$ 。
从 $M_0,M_1,\cdots，M_p$ 中选取最优模型。选取标准可以是交叉验证的预测误差，或者 $C_p(AIC), BIC,$ 调整后的 $R^2$ 。

混合逐步选择

按向前逐步选择的方式给空模型增加自变量，每增加一个新的自变量，移除不再提供改进的自变量。

如何选取最优

$C_p,AIC,BIC,$ 调整后的 $R^2$

$C_p,AIC,BIC,$ 调整后的 $R^2$ 都是用来评价模型好坏的统计量，在选择最优模型的时候进行参考。
$C_p,AIC,BIC,$ 越小越好；调整后的 $R^2$ 越接近 $1$ 越好

$C_p$

$C_p=\frac{1}{n}(RSS+2d\hat\sigma^2)$
$C_p$ 是对测试MSE的估计， $d$ 是自变量数量， $\hat\sigma^2$ 是对误差项 $\epsilon$ 方差的估计。 $C_p$ 统计量在RSS的基础上增加了一个 $2d\hat\sigma^2$ 的惩罚项来进行调整。

$A I C$

Akaike information criterion（AIC）
$AIC=\frac{1}{n\hat\sigma^2}(RSS+2d\hat\sigma^2)$

$B I C$

Bayesian information criterion（BIC）
$BIC=\frac{1}{n\hat\sigma^2}(RSS+log(n)d\hat\sigma^2)$

调整后的 $R^2$ （adjusted $R^2$ ）

$R^2=1-\frac{RSS/(n-d-1)}{TSS/(n-1)}$

交叉验证的误差

上面四种统计量都是通过间接的方式来估计测试MSE，也可以用校验集或者交叉验证集上的得到误差来直接估计。交叉验证的预测误差最小的模型，效果最好。

ISLR读书笔记十：模型选择——子集选择法（subsect selection）

模型选择——子集选择法

前言

最优子集法（best subset selection）

逐步选择法（stepwise selection）

向前逐步选择

向后逐步选择

混合逐步选择

如何选取最优

$C_p,AIC,BIC,$ 调整后的 $R^2$

$C_p$

$A I C$

$B I C$

调整后的 $R^2$ （adjusted $R^2$ ）

交叉验证的误差

猜你喜欢

ISLR读书笔记十：模型选择——子集选择法（subsect selection）

模型选择——子集选择法

前言

最优子集法（best subset selection）

逐步选择法（stepwise selection）

向前逐步选择

向后逐步选择

混合逐步选择

如何选取最优

C p , A I C , B I C , C_p,AIC,BIC, Cp​,AIC,BIC, 调整后的 R 2 R^2 R2

C p C_p Cp​

A I C AIC AIC

B I C BIC BIC

调整后的 R 2 R^2 R2 （adjusted R 2 R^2 R2）

交叉验证的误差

猜你喜欢

$C_p,AIC,BIC,$ 调整后的 $R^2$

$C_p$

$A I C$

$B I C$

调整后的 $R^2$ （adjusted $R^2$ ）