论文题目:Online Hyper-parameter Learning for Auto-Augmentation Strategy
提出一种将自动增强问题 近似为 超参数的优化问题,并且动态地提升自动数据增强的策略的效果。
主要内容:
1、提出在线超参学习方法。将每个增强策略视作一个参数概率分布
2、提出一个双层结构,允许分布参数能与网络参数一起训练
3、提出 OHL-Auto-Aug 动态的改善性能
在双层结构中,内部目标是优化vanilla train loss,即网络参数,外部目标是优化 验证集的准确率,即增强策略的分布参数。两个目标同时优化,作为整体不用再retraining,计算量减少。
在内部训练,利用增强采样,使用SGD训练网络参数。
在外部训练, 利用trajectory 样本,使用REINFORCE梯度,训练增强策略分布参数。
在每一步的迭代中,网络参数中高准确率将broadcasted 到trajectory samples
Problem Formulation
自动数据增强到策略是自动的找到一个增强操作集,增加模型的泛化性
- 将数据增强策略 作为 (在增强操作上的概率分布)。
- 假设有K的候选的增强操作,
- 每个操作被选择的概率是
- 网络模型
- 数据增强的目标是:对于
,最大化验证集的
;对于模型权重
,最小化训练
。
在外层,在获得最好的model ,性能之下,我们寻找参数 。其中 是内层问题的解。
-
表示外层更新迭代的steps
-$ i = 1, 2, …, I$表示内层更新迭代的steps
外层优化更新一次,内部训练更新 个steps - trajectory ,在T周期中所以的aug操作
对于内层的训练
对于外层的训练
基于REINFORCE 算法,Monte-Carlo 采样,解决外层训练优化问题
- 认为
仅与trajectory T 有关
- 内部训练,N个网络同时训练, N 个采样 trajectories.
is the n-th trajectory.
候选操作
算法流程
关键点:
1、将aug看出概率分布,避免采样
2、N个模型,选择最好的
broadcast
3、优化θ,最大化验证集
转换公式