ISLR读书笔记十二:模型选择——降维法(dimension reduction methods)

模型选择——降维法

前言

前面介绍的两类模型选择的方法,都保留了原始的自变量,而降维法则对原始自变量进行了转化,其大致思想是将原来的 p p p 个自变量,整合成 M M M 个自变量( M < p M<p M<p)。
若令 Z 1 , Z 2 , ⋯ , Z M Z_1,Z_2,\cdots,Z_M Z1,Z2,ZM 表示 p p p 个 原始自变量的 M M M 个线性组合,即
Z m = ∑ j = 1 p ϕ j m X j Z_m=\sum_{j=1}^p\phi_{jm}X_j Zm=j=1pϕjmXj
然后对这 M M M 个自变量进行线性回归:
y i = θ 0 + ∑ m = 1 M θ m z i m + ϵ i i = 1 , 2 , ⋯   , n y_i=\theta_0+\sum_{m=1}^M\theta_mz_{im}+\epsilon_i \quad i=1,2,\cdots,n yi=θ0+m=1Mθmzim+ϵii=1,2,,n
之所以称其为降维法,是因为原先要估计 β 0 , β 1 , ⋯   , β p \beta_0,\beta_1,\cdots,\beta_p β0,β1,,βp p + 1 p+1 p+1 个参数,而现在只需要估计 θ 0 , θ 1 , ⋯   , θ M \theta_0,\theta_1,\cdots,\theta_M θ0,θ1,,θM M + 1 M+1 M+1 个参数。
∑ m = 1 M θ m z i m = ∑ m = 1 M θ m ∑ j = 1 p ϕ j m x i j = ∑ j = 1 p ∑ m = 1 M θ m ϕ j m x i j = ∑ j = 1 p β j x i j \sum_{m=1}^{M} \theta_{m} z_{i m}=\sum_{m=1}^{M} \theta_{m} \sum_{j=1}^{p} \phi_{j m} x_{i j}=\sum_{j=1}^{p} \sum_{m=1}^{M} \theta_{m} \phi_{j m} x_{i j}=\sum_{j=1}^{p} \beta_{j} x_{i j} m=1Mθmzim=m=1Mθmj=1pϕjmxij=j=1pm=1Mθmϕjmxij=j=1pβjxij
这里
β j = ∑ m = 1 M θ m ϕ j m \beta_{j}=\sum_{m=1}^{M} \theta_{m} \phi_{j m} βj=m=1Mθmϕjm
ϕ j m \phi_{jm} ϕjm 的选择是多样的,这里主要介绍两种降维法:主成分法(principal components)和偏最小二乘法(partial least squares )

PCR

主成分回归(principal components regression),简称 PCR,是一种降维方法 。第一主成分方向,是沿着该方向,观测数据变化最大的方向,也可以理解为尽可能接近观测数据的方向。
绿色实线为第一主成分方向第二主成分 Z 2 Z_2 Z2 是与 第一主成分 Z 1 Z_1 Z1 不相关的,有最大方差的,原始数据的线性组合。
第三主成分 Z 3 Z_3 Z3 是与 Z 1 , Z 2 Z_1,Z_2 Z1,Z2 均不相关的,有最大方差的,原始数据的线性组合。以此类推。
而 PCR 就是在 Z 1 , Z 2 , ⋯   , Z M Z_1,Z_2,\cdots,Z_M Z1,Z2,,ZM 的基础上,进行线性回归。
优点: 减少过拟合
缺点: 可以很好地解释自变量,但未必能得到好的预测结果
需要注意的点:

  1. 随着主成分数目的增加,模型得到的预测结果的偏差减小,但是方差增大
  2. PCR在前几个主成分反映大部分变化的情况下,表现良好
  3. 主成分的数目 M M M 可以通过交叉验证的方法来决定
  4. 使用 PCR 之前,最好先进行标准化

PLS

偏最小二乘(partial least squares),简称PLS,是另一种降维方法。与PCR不同,PCR在整合自变量时,没有涉及到因变量,而PLS则利用因变量来进行自变量的整合。方法如下:

  1. Y Y Y 和每一个 X j X_j Xj 进行简单线性回归,得到参数 ϕ j 1 \phi_{j1} ϕj1,进而得到第一PLS方向 Z 1 Z_1 Z1 Z 1 = ∑ j = 1 p ϕ j 1 X j Z_1 = \sum_{j=1}^p\phi_{j1}X_j Z1=j=1pϕj1Xj)。
  2. Y Y Y Z 1 Z_1 Z1 进行回归,得到残差。这里残差可以理解为未被 Z 1 Z_1 Z1 解释的信息。然后按上一步的方式,将 Y Y Y和 正交化的残差数据进行简单线性回归。得到 Z 2 Z_2 Z2。以此类推,得到 Z 1 , Z 2 , ⋯   , Z M Z_1,Z_2,\cdots,Z_M Z1,Z2,,ZM

PLS和PCR相比,虽然减少了预测结果的偏差,但是同时增大了预测结果的方差。

猜你喜欢

转载自blog.csdn.net/weixin_43084570/article/details/109037441