第8章：偏差与方差

8.1 评估模型

用训练集对模型进行训练的时候，通常会存在两种问题，“过拟合”和“欠拟合”，分别对应高方差（high variance）和高偏差（high bias）。

高方差：拟合程度过好，以至于过拟合，无法泛化新的样本数据
高偏差：拟合程度太差，以至于欠拟合，训练模型效果差，存在很大的误差

模型评估：

随机划分训练集和测试集；
用训练集进行模型训练，用测试集计算代价函数 $J_{test}(\theta)$ ;
或者采用错误分类率 $Test\ error=\frac{1}{m}\sum_{i=1}^merr(h_\theta(x^{(i)}),y^{(i)})$ $err(h_\theta(x),y)= \begin{cases} 1 &if \quad h_\theta(x)\geq0.5,y=0\quad or\quad h_\theta(x)<0.5,y=1\\ 0 &if \quad else \end{cases}$

模型选择：

将数据划分成训练集、交叉验证集和测试集；
用训练集训练出多个模型，将所有模型分别用交叉验证集计算出代价函数 $J_{cv}(\theta)$ ;
选择代价函数值 $J_{cv}(\theta)$ 最小的模型，用这个模型对测试集计算出代价函数 $J_{test}(\theta)$ ;

训练误差： $J_{train}(\theta)=\frac{1}{2m_{train}}\sum_{i=1}^{m_{train}}(h_\theta(x_{train}^{(i)})-y_{train}^{(i)})^2$ 交叉验证误差： $J_{cv}(\theta)=\frac{1}{2m_{cv}}\sum_{i=1}^{m_{cv}}(h_\theta(x_{cv}^{(i)})-y_{cv}^{(i)})^2$ 测试误差： $J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_\theta(x_{test}^{(i)})-y_{test}^{(i)})^2$

8.2 最高次幂对方差/偏差的影响

如图所示，横坐标为假设函数的最高次幂，纵坐标为错误分类率或者代价函数，一般情况下：
在这里插入图片描述

当 $d$ 很小时，曲线无法拟合大部分数据，具有高偏差， $\begin{cases} J_{train}(\theta)\ will \ be \ high \\ J_{test}(\theta)\approx J_{train}(\theta) \end{cases}$
当 $d$ 很大时，曲线拟合训练集过好，造成无法泛化测试集，具有高方差， $\begin{cases} J_{train}(\theta)\ will \ be \ low \\ J_{test}(\theta)\gg J_{train}(\theta) \end{cases}$