ISLR 读书笔记四:多元线性回归


多元线性回归是简单线性回归的拓展。简单线性回归中,自变量只有一个,而多元线性回归中,自变量有多个,可以用如下形式表示:
Y = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p + ϵ Y = \beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p+\epsilon Y=β0+β1X1+β2X2++βpXp+ϵ

参数估计

上式中的 β 0 , β 1 , . . . , β p \beta_0,\beta_1,...,\beta_p β0,β1,...,βp 是未知的,需要估计。一旦给出了参数估计 β ^ 0 , β ^ 1 , . . . β ^ p \hat{\beta}_0,\hat{\beta}_1,...\hat{\beta}_p β^0,β^1,...β^p,那么就可以用如下式子进行预测。
y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ p x p \hat{y}=\hat{\beta}_0+\hat{\beta}_1x_1+\cdots+\hat{\beta}_px_p y^=β^0+β^1x1++β^pxp
这里同样可以使用最小二乘法进行参数估计:
R S S = ∑ i = 1 n ( y i − y ^ i ) 2 RSS = \sum_{i=1}^n(y_i-\hat{y}_i)^2 RSS=i=1n(yiy^i)2
R S S = ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i 1 − ⋯ − β ^ p x i p ) 2 RSS = \sum_{i=1}^n(y_i - \hat{\beta}_0-\hat{\beta}_1x_{i1}-\cdots-\hat{\beta}_px_{ip})^2 RSS=i=1n(yiβ^0β^1xi1β^pxip)2
β ^ 0 , β ^ 1 , . . . β ^ p \hat{\beta}_0,\hat{\beta}_1,...\hat{\beta}_p β^0,β^1,...β^p 使得 R S S RSS RSS 最小,具体形式较为复杂。

四个问题

因变量与自变量是否相关

原假设: H 0 : β 1 = β 2 = ⋯ = β p = 0 H_0:\beta_1=\beta_2=\cdots=\beta_p=0 H0:β1=β2==βp=0
备择假设: H α : 至 少 有 一 个 β j 非 零 H_\alpha:至少有一个\beta_j非零 Hα:βj
该假设检验需要计算的统计量是 F统计量(F-statistic)
F = ( T S S − R S S ) / p R S S / ( n − p − 1 ) F=\frac{(TSS-RSS)/p}{RSS/(n-p-1)} F=RSS/(np1)(TSSRSS)/p
其中, T S S = ∑ ( y i − y ˉ ) 2 , R S S = ∑ ( y i − y ^ ) 2 TSS=\sum(y_i-\bar{y})^2, RSS=\sum(y_i-\hat{y})^2 TSS=(yiyˉ)2,RSS=(yiy^)2
如果线性模型的假设正确,那么可以证明
E [ R S S / ( n − p − 1 ) ] = σ 2 E[RSS/(n-p-1)]=\sigma^2 E[RSS/(np1)]=σ2
如果 H 0 H_0 H0正确,那么可以证明
E [ ( T S S − R S S ) / p ] = σ 2 E[(TSS-RSS)/p]=\sigma^2 E[(TSSRSS)/p]=σ2
所以,如果因变量和自变量不相关,那么F统计量的值应该要接近于1,而如果备择假设成立,那么F统计量要大于1。
有时,我们只是想检验部分自变量与因变量无关,即
H 0 : β p − q + 1 = β p − q + 2 = . . . = β p = 0 H_0:\beta_{p-q+1}=\beta_{p-q+2}=...=\beta_p=0 H0:βpq+1=βpq+2=...=βp=0
设此模型的残差平方和为 R S S 0 RSS_0 RSS0,那么此时F统计量为
F = ( R S S 0 − R S S ) / q R S S / ( n − p − 1 ) F=\frac{(RSS_0-RSS)/q}{RSS/(n-p-1)} F=RSS/(np1)(RSS0RSS)/q

决定重要变量

如果因变量与自变量相关,那么很自然的一个想法就是,因变量与哪些自变量相关?找出对因变量有作用的自变量的过程,就是变量选择(variable selection)
这里有三种变量可以来判断模型拟合的好坏:AIC(Akaike information criterion),BIC(Bayesian informaiton criterion),调整后的 R 2 R^2 R2(adjusted R 2 R^2 R2)。具体的以后会讲。
假设有 p p p 个自变量,这里介绍三种变量选择的方法:

  1. 向前选择(forward selection)
    以空模型(null model)开始。空模型,只有截距(待定常数),而没有其他变量。然后往里面加一个变量,因为一共有 p p p 个变量,所以可以得到 p p p 个模型,再选取使得 R S S RSS RSS 最小的那个变量,保留该变量加入到空模型之中。然后再对剩余的 p − 1 p-1 p1 个变量进行重复操作,直到得到满意的结果为止。
  2. 向后选择(backward selection)
    向后选择可以看作是向前选择的反过程。首先把所有变量都加入到模型之中,然后移除一个 p p p 值最大的变量(最有可能显著为0),得到( p − 1 p-1 p1)个变量的线性模型。然后进行重复操作,直到得到满意的结果为止。
  3. 混合选择(mixed selection)
    这是向前选择和向后选择的组合。首先从空模型开始,按向前选择的方式加入变量。随着变量的加入,变量的 p p p 值会增大。当某个变量的 p p p 值达到一个阈值之后,就移除该变量。重复进行这两种操作,直到得到满意的结果为止。

模型拟合

RSE和 R 2 R^2 R2 是评估线性回归拟合好坏的两个重要统计量。

在简单线性回归中, R S E = 1 n − 2 R S S RSE=\sqrt{\frac{1}{n-2}RSS} RSE=n21RSS 而多元线性回归中, R S E = 1 n − p − 1 R S S RSE=\sqrt{\frac{1}{n-p-1}RSS} RSE=np11RSS
在简单线性回归中, R 2 R^2 R2 是自变量和因变量相关系数的平方;多元线性回归中, R 2 = C o r ( Y , Y ^ ) 2 R^2 = Cor(Y,\hat{Y})^2 R2=Cor(Y,Y^)2。 是因变量和拟合数据相关系数的平方。

预测

一旦得到了多元线性回归模型,那么就可以用如下式子来进行预测:
y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ p x p \hat{y}=\hat{\beta}_0+\hat{\beta}_1x_1+\cdots+\hat{\beta}_px_p y^=β^0+β^1x1++β^pxp
但是这种预测还有三个不确定性:

  1. β ^ 0 , β ^ 1 , . . . β ^ p \hat{\beta}_0,\hat{\beta}_1,...\hat{\beta}_p β^0,β^1,...β^p β 0 , β 1 , . . . , β p \beta_0,\beta_1,...,\beta_p β0,β1,...,βp 的一个估计,得到的 Y ^ \hat{Y} Y^ Y ^ = β ^ 0 + β ^ 1 X 1 + ⋯ + β ^ p X p \hat{Y}=\hat{\beta}_0+\hat{\beta}_1X_1+\cdots+\hat{\beta}_pX_p Y^=β^0+β^1X1++β^pXp 只是 f ( X ) = β 0 + β 1 X 1 + ⋯ + β p X p f(X)=\beta_0+\beta_1X_1+\cdots+\beta_pX_p f(X)=β0+β1X1++βpXp的一个估计,还存在可约误差,可以给出一个置信区间(confidence interval)
  2. 实际问题中, f f f 未必是完全线性的,线性只是一种近似。所以还存在模型偏差(model bias)
  3. 即使知道了 f ( X ) f(X) f(X) 的确切形式,和参数 β 0 , β 1 , . . . , β p \beta_0,\beta_1,...,\beta_p β0,β1,...,βp 的真实值,也还是不能百分之百地预测,因为还存在不可约误差 ϵ \epsilon ϵ 的影响。

猜你喜欢

转载自blog.csdn.net/weixin_43084570/article/details/108767991