ISLR读书笔记九：自助法（bootstrap）

自助法是一类应用很广的统计方法，可以用来定量化参数估计或者统计学习方法的不确定性。自助法重复地从原数据集中采样，这里采样是可放回的（replacement），可以允许有同样的样本出现，然后用得到的样本进行参数估计。
举一个例子来说明自助法的应用。假设有 $X$ 和 $Y$ 两种不同的金融资产，现要对 $X$ 和 $Y$ 进行投资，使得总风险最小。假设有 $\alpha$ 投给了 $X$ ， $1-\alpha$ 投给了 $Y$ ，那么总风险就是 $Var(\alpha X+(1-\alpha)Y)$ 。可以证明，当：
$\alpha = \frac{\sigma_Y^2-\sigma_{XY}}{\sigma_X^2+\sigma_Y^2-2\sigma_{XY}}$
时，总风险最小，这里 $\sigma_X^2=Var(X),\sigma_Y^2=Var(Y),\sigma_{XY}=Cov(X,Y)$ 。
实际问题中， $\sigma_X^2,\sigma_Y^2,\sigma_{XY}$ 都是未知的，可以用原数据得到他们的估计： $\hat\sigma_X^2,\hat\sigma_Y^2,\hat\sigma_{XY}$ ，然后得到
$\hat\alpha = \frac{\hat\sigma_Y^2-\hat\sigma_{XY}}{\hat\sigma_X^2+\hat\sigma_Y^2-2\hat\sigma_{XY}}$
自助法旨在估计 $SE(\alpha)$
假设总共有 $n = 3$ 个观测数据，原数据集记作为 $Z$ 。我们先随机有放回地选择 $n$ 个数据，得到一个新的数据集记作 $Z^{*1}$ （如下图），然后用 $Z^{*1}$ 得到 $\alpha$ 的一个估计，记作 $\alpha^{*1}$ 。再将该操作重复 $B$ 次，得到数据集 $Z^{*1},Z^{*2},\cdots,Z^{*B}$ ，还有 $\alpha$ 的估计 $\alpha^{*1},\alpha^{*2},\cdots \alpha^{*B}$ ，那么 $SE(\alpha)$ 就可以用下式来估计：
$SE_B(\hat\alpha)=\sqrt{\frac{1}{B-1}\sum_{r=1}^B(\hat\alpha^{*r}-\frac{1}{B}\sum_{r'=1}^B\hat\alpha^{*r'})^2}$
bootstrap

ISLR读书笔记九：自助法（bootstrap）

猜你喜欢