正样本/反(负)样本/易区分样本/难区分样本

本文链接： https://blog.csdn.net/weixin_38145317/article/details/100514983

网络训练中,常会遇到这些术语,比如

(1) 正样本和反(负)样本数不相同,甚至相差悬殊(实际上往往正样本数远远小于负样本数),如何解决样本呢不均衡问题?

(2) 在选择负样本(正样本)的过程中,很多样本都是易于区分的,也就是说,这些样本对于模型性能的提升贡献较小,添加了这些样本不仅对于模型的提升帮助有限,同时大量的这些样本也主导了梯度更新的方向,浪费了训练时间.

这些话都什么意思?各种样本什么区别?还是举个例子来看下:

现在我要训练一个模型,能认出斑点狗,也就是说,送给神经网络好多图片,如果图片中有斑点狗,那么输出1,否则输出0,显然在我们训练神经网络模型的过程中,我们会遇到这样的情况:

(1) 包含有斑点狗的样本太少(其他任何不是斑点狗的图片都可以作为负样本)

(2)很多负样本容易区分,比如什么飞机照片,人照片,火车照片,这些都不包含斑点狗,同时也是包含易区分样本,而对于哈士奇,哈巴狗等这些同样是购得样本就是较难区分的样本(因为大家都是狗啊,只是身上有没有黑斑而已...)

(3)大量无管样本主导了梯度更新的方向.

借用retinanet论文的话来说https://arxiv.org/pdf/1708.02002.pdf

在训练的过程中,由于大多数都是简单易分的负样本(属于背景的样本),使得训练过程不能充分学习到属于那些有类别样本的信息,其次简单易分的负样本太多,可能掩盖了其他类别样本的作用(这些简单易分的负样本仍产生一定幅度的loss,见下图的蓝色曲线,数量多会对loss起主要贡献作用,因此就主导了梯度的更新方向,掩盖了重要的信息)

正样本/反(负)样本/易区分样本/难区分样本

猜你喜欢