数据集的训练集和测试集划分

其他 2018-12-26 12:50:03 阅读次数: 0

数据集的训练集和测试集划分

留出法（hold-out）

留出法，直接将数据集 $D$ 划分为两个互斥的集合，其中一个集合作为训练集 $S$ ，另一个作为测试集 $T$ ，一般做法是将2/3~4/5的样本作为训练集，其余部分作为测试集；

在使用留出法时，一般采用多次随即划分、重复进行实验评估后，取平均值作为留出法的评估结果。

交叉验证法（cross validation）

交叉验证法，或 $k$ 折交叉验证法(k-fold cross validation)，先将数据集 $D$ 划分为大小相似的 $k$ 个互斥子集，然后进行 $k$ 次实验，每次实验使用 $k-1$ 个子集作为训练集，剩下的1个子集作为测试集，其中，每个子集都作为测试集进行过一次实验；

在使用交叉验证法时，通常要随机使用不同划分重复 $p$ 次，最终的评估结果是 $p$ 次 $k$ 折交叉验证结果的平均值。

例如，10次10折交叉验证法，进行了100次实验。

特别地，当 $k=m$ 时（ $m$ 为样本数）， $k$ 折交叉验证法，即为留一法（Leave-one-out），此方法只有一种划分子集的划分方式，即每个子集包含一个样本。

自助法（bootstrapping）

自助法，对于包含 $m$ 个样本的数据集 $D$ ，每次随机抽取一个样本作为训练样本，又放回地抽取，执行 $m$ 次抽取操作，得到训练样本集，剩余部分则为测试集；

当m趋于无穷时，样本在测试集中出现的概率趋于 $1/e$ ，即约0.368，如下面公式所示：
$\lim_{m \to \infty} \big(1-\frac{1}{m}\big)^m=\frac{1}{e}$
自助法适用于数据集较小，难以有效划分训练集和测试集的情况；

自助法产生的数据集改变了初始数据集的分布，引入了估计偏差；

因此，在数据量足够的情况下，一般使用留出法或交叉验证法。

注意事项

测试集至少包含30个样例；

测试集/训练集划分时，要尽可能保持数据分布的一致性，例如，分类任务中保持样本类别比例相似（分层采样，stratified sampling）。

猜你喜欢

转载自blog.csdn.net/kuaizi_sophia/article/details/84883704

数据集的训练集和测试集划分

如何把数据集划分成训练集和测试集

将数据集划分为训练集和测试集

python划分训练集和测试集

训练集和测试集划分方法

随机划分训练集和测试集

机器学习数据集（训练集、测试集）划分方法

训练集，测试集和验证集划分的意义

【划分训练集、验证集和测试集(xml版本)】

训练集、验证集、测试集的划分

目标检测数据集划分训练集和验证集

学习笔记：使用python将数据集划分成测试集和训练集

怎么为小数据集划分训练集和测试集

数据集划分为训练集和测试集并生成标签--matlab代码

YOLOv5目标检测（数据集格式转换并划分训练集和测试集）

【自存代码】划分数据集为训练集和测试集

机器学习之数据集划分——训练集测试集划分，划分函数，估计器的使用

Python scikit-learn，数据集，获取自带数据集，数据集划分(划分为训练集和测试集)

利用sklearn划分训练集和测试集

机器学习数据挖掘数据集划分训练集验证集测试集

机器学习：训练集与测试集的划分

机器学习数据集划分训练集验证集测试集

机器学习数据集划分-训练集，验证集，测试集

【yolov5】数据集制作：划分训练集、验证集、测试集

VOC类型数据集划分为训练集、验证集、测试集

YOLO 划分数据集（训练集、验证集、测试集）

将数据划分为训练集和测试集；缩放特征区间

python实现对于数据集的划分（随机划分出训练集和验证集）

【R语言学习笔记】 Day7 将数据划分为训练集、验证集和测试集

将标注好的yolo格式数据集划分为yolov5所适用的训练集和测试集

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)