1 前言
在基于深度学习的目标检测任务中,训练集与测试集样本分布的不一致是一个影响模型表现的常见因素,
为了使得训练集的分布与测试集一致,我们需要采用一定的样本增广操作;
2 备注
2.1 “第五类和第八类训练数据较少(但是测试集中占比不少)”——出现了类别分布的差异问题
可以看到在“第五类和第八类训练数据较少(但是测试集中占比不少)”的问题中,我们一眼就明白,这是一个类别分布不一致的问题;
(但是这是不是一个类别不平衡问题呢,我们一般不这样说;我们认为由于metric对各种类别同一看待,而训练集中各个类别数量占比差异巨大引起的问题,称作类别的不平衡问题)
这里我们注意到,百度冠军模型的作者有一个发现,那就是“第五类和第八类训练数据在测试集中占比不少”,这个就有点奇怪了,明明没有测试集的标注信息,他是如何得知的呢?
根据钟老师的指导,我们知道,我们可以采用“伪标签”的形式对数据进行EDA,获取测试集的类别分布的信息;