1.背景
ensemble learning 通常可以有效提升模型性能,但是通常在在线inference的时候不可能, 被称为cumbersome model
之前的研究表明possible to compress the knowledge in an ensemble into a single model(核心思想)
ensemble model -> single model
或者cumbersome model -> efficient model
这个操作被称为模型蒸馏 distillation
一个常见的思维障碍: 认为trained model的knowledge来源于参数值,因此 hard to change form with same knowledge
更抽象的看法: 模型不属于任何实例,只是一个learned 输入到输出的映射
one-hot 编码, 用cross entropy训练时,模型总是去最大化正确类的概率,但同时,模型的其他预测可以给我们很多关于模型是如何泛化的信息,
比如, BMW 在是别的时候,误分类为benz的概率会比 误分类为sea的概率大很多,从视觉上来讲,benz与bmw 更加接近,但是在训练标注中,没有这部分信息,
而且人为也很难量化,类似的有一个label-smoothing, 但是label-smoothing的平滑有点强行, 缺乏先验知识,效果一般,
感觉distillation 有一点高级版本的label-smooth的感觉,
同理, weight target 也有一点类似的感觉,比如在色情分类中, 如果一个样本是porn, 那误分为normal 的惩罚和误分为 normal 惩罚 normal更多,
都是为了加入更多的先验知识, 即学到correct way to generalize