统计学习笔记3

根据学习策略，在假设空间里选择模型之后，我们需要用具体算法求解模型；此时，统计学习就变成了最优化问题
模型+策略+算法 ————》》确定统计学习

在这里插入图片描述

测试误差越小，对未知数据的预测能力就越强，即泛化能力越强

在这里插入图片描述
事实上，泛化误差就是所学习到的模型的期望风险

泛化误差的概率上界简称泛化误差上界，我们通过比较不同模型泛化误差上界来评判优劣，泛化误差上界具有以下性质：（1）当模型是样本容量函数时，样本容量增加，泛化误差上界趋于0；（2）当模型是假设空间容量的函数时，空间容量增大，泛化误差上界增大

假设空间存在“真”模型，那么统计学习的目标即是将所得模型与“真”模型无限逼近；然而，当我们一味地追求对训练数据的“完整”拟合时，所得模型往往比“真”模型的复杂度要高，参数较多；使得模型对训练数据预测很好，但对未知数据预测很差，这种现象叫做“过拟合”

正则化是在经验风险的基础上加一个正则项（罚项），是最小化结构风险策略的具体实现；正则化项一般是关于模型复杂度单调递增的函数，模型复杂度越高，相应的正则项也越大
正则化的作用是选择经验风险值与结构风险值同时较小的模型

如果样本数据充足，可将数据分为训练集、验证集、测试集；其中训练集训练模型；验证集选择模型，在由训练集学习所得的不同复杂度的模型中选择对验证集有最小预测误差的模型；测试集对所得模型评估

1.简单交叉验证：
首先随机的将数据集分为训练集与测试集，之后在训练集上训练模型，并在测试集上选择测试误差最小的模型
2. S折交叉验证：
首先随机地将数据切为S个子集，选择S-1个子集作为训练集，用余下的一个子集做测试集
3.留一交叉验证
S折交验证的特例（S取N，N为给定数据集的容量）