留出法(hold-out)
为了评估泛化误差,将初始的数据集划分为训练集和验证集,验证集的误差可以近似作为泛化误差。留出法就是把数据集D切成两块,大概70%的训练集,30%的验证集。
另外,在给定划分比例之后,仍存在多种划分方式,因此一般采用若干次的随即划分,然后取平均评估结果。
自助采样法(bootstrap sampling)
从数据集D中随机抽取一个样本,把它拷贝到训练集后放回数据集D,重复此动作m次,我们就得到了训练集
,而未选中的样本就作为验证集。显然有一部分样本会出现多次,而另一部分样本不出现。
即通过自助采样,D中约有36.8%的样本不会出现在 中。
完,感谢阅读!------李豪