数据扩增中的逆向思维解决过拟合问题

常规在机器学习与深度学习模型训练过程中,经常会对较少的类别进行扩增。数据扩增一定程度上可以缓解类别的不平衡性,也可以扩展样本的多样性。

在机器学习训练中,还有一个很难绕开的问题是 【过拟合】,过拟合的主要原因是学习到了一些 “假模式”(这也是因果律被诟病的主要原因之一);比如在进行分类的时候,狗狗类别的图像,狗狗总是叼着一个大球,而其他类别的图像中,并没有类似的大球。那么黑盒训练过程中,很可能把这个大球与狗狗这个类别绑定起来。这个球就是 “假模式”。这个可能造成的后果是,如果有一张图像只出现了大球,而没有出现狗狗,那么分类器也将其误判为狗狗。

一个似乎可行的逆向思维解决这个问题扩增方式是:把与我们 目标关注点 频繁共现 “假模式”进行扩增,让它在每个类别中都出现(比如把球抠出来贴到其他各个类别中),在训练过程中先验地告诉分类器,这种模式是不靠谱的,不要把关注点浪费在这些地方了。

所以,这给我们的一个启发是:1)我们对数据分析时,可以有针对性地找出类别中有没有明显的 “假模式”,这个需要对数据进行充分理解。先看数据,提出假设,然后想从统计的范畴证明自己的假设。2)如果假设成立,那么想办法通过扩增的方式在各个类别中模糊化这种假模式

目前,以上仅仅是假设,还没有实验验证,后续有切实的实验验证,再来更新这篇文章,各位读者也可以自己尝试,如果有效,请留言交流~

猜你喜欢

转载自blog.csdn.net/yangyehuisw/article/details/106101599