数据扩增中的逆向思维解决过拟合问题

常规在机器学习与深度学习模型训练过程中，经常会对较少的类别进行扩增。数据扩增一定程度上可以缓解类别的不平衡性，也可以扩展样本的多样性。

在机器学习训练中，还有一个很难绕开的问题是【过拟合】，过拟合的主要原因是学习到了一些 “假模式”（这也是因果律被诟病的主要原因之一）；比如在进行分类的时候，狗狗类别的图像，狗狗总是叼着一个大球，而其他类别的图像中，并没有类似的大球。那么黑盒训练过程中，很可能把这个大球与狗狗这个类别绑定起来。这个球就是 “假模式”。这个可能造成的后果是，如果有一张图像只出现了大球，而没有出现狗狗，那么分类器也将其误判为狗狗。

一个似乎可行的逆向思维解决这个问题扩增方式是：把与我们目标关注点频繁共现 “假模式”进行扩增，让它在每个类别中都出现（比如把球抠出来贴到其他各个类别中），在训练过程中先验地告诉分类器，这种模式是不靠谱的，不要把关注点浪费在这些地方了。

所以，这给我们的一个启发是：1）我们对数据分析时，可以有针对性地找出类别中有没有明显的 “假模式”，这个需要对数据进行充分理解。先看数据，提出假设，然后想从统计的范畴证明自己的假设。2）如果假设成立，那么想办法通过扩增的方式在各个类别中模糊化这种假模式。

目前，以上仅仅是假设，还没有实验验证，后续有切实的实验验证，再来更新这篇文章，各位读者也可以自己尝试，如果有效，请留言交流～

数据扩增中的逆向思维解决过拟合问题

猜你喜欢