前言

前面介绍的两类模型选择的方法，都保留了原始的自变量，而降维法则对原始自变量进行了转化，其大致思想是将原来的 $p$ 个自变量，整合成 $M$ 个自变量（ $M < p$ ）。
若令 $Z_1,Z_2,\cdots，Z_M$ 表示 $p$ 个原始自变量的 $M$ 个线性组合，即
$Z_m=\sum_{j=1}^p\phi_{jm}X_j$
然后对这 $M$ 个自变量进行线性回归：
$y_i=\theta_0+\sum_{m=1}^M\theta_mz_{im}+\epsilon_i \quad i=1,2,\cdots,n$
之所以称其为降维法，是因为原先要估计 $\beta_0,\beta_1,\cdots,\beta_p$ 这 $p + 1$ 个参数，而现在只需要估计 $\theta_0,\theta_1,\cdots,\theta_M$ 这 $M + 1$ 个参数。
$\sum_{m=1}^{M} \theta_{m} z_{i m}=\sum_{m=1}^{M} \theta_{m} \sum_{j=1}^{p} \phi_{j m} x_{i j}=\sum_{j=1}^{p} \sum_{m=1}^{M} \theta_{m} \phi_{j m} x_{i j}=\sum_{j=1}^{p} \beta_{j} x_{i j}$
这里
$\beta_{j}=\sum_{m=1}^{M} \theta_{m} \phi_{j m}$
而 $\phi_{jm}$ 的选择是多样的，这里主要介绍两种降维法：主成分法（principal components）和偏最小二乘法（partial least squares ）

PCR

主成分回归（principal components regression），简称 PCR，是一种降维方法。第一主成分方向，是沿着该方向，观测数据变化最大的方向，也可以理解为尽可能接近观测数据的方向。
绿色实线为第一主成分方向第二主成分 $Z_2$ 是与第一主成分 $Z_1$ 不相关的，有最大方差的，原始数据的线性组合。
第三主成分 $Z_3$ 是与 $Z_1,Z_2$ 均不相关的，有最大方差的，原始数据的线性组合。以此类推。
而 PCR 就是在 $Z_1,Z_2,\cdots,Z_M$ 的基础上，进行线性回归。
优点： 减少过拟合
缺点： 可以很好地解释自变量，但未必能得到好的预测结果
需要注意的点：

随着主成分数目的增加，模型得到的预测结果的偏差减小，但是方差增大
PCR在前几个主成分反映大部分变化的情况下，表现良好
主成分的数目 $M$ 可以通过交叉验证的方法来决定
使用 PCR 之前，最好先进行标准化

PLS

偏最小二乘（partial least squares），简称PLS，是另一种降维方法。与PCR不同，PCR在整合自变量时，没有涉及到因变量，而PLS则利用因变量来进行自变量的整合。方法如下：

将 $Y$ 和每一个 $X_j$ 进行简单线性回归，得到参数 $\phi_{j1}$ ，进而得到第一PLS方向 $Z_1$ （ $Z_1 = \sum_{j=1}^p\phi_{j1}X_j$ ）。
将 $Y$ 和 $Z_1$ 进行回归，得到残差。这里残差可以理解为未被 $Z_1$ 解释的信息。然后按上一步的方式，将 $Y$ 和正交化的残差数据进行简单线性回归。得到 $Z_2$ 。以此类推，得到 $Z_1,Z_2,\cdots,Z_M$

PLS和PCR相比，虽然减少了预测结果的偏差，但是同时增大了预测结果的方差。

ISLR读书笔记十二：模型选择——降维法（dimension reduction methods）

模型选择——降维法

前言

PCR

PLS

猜你喜欢