KCF论文笔记

1.背景

ensemble learning 通常可以有效提升模型性能,但是通常在在线inference的时候不可能, 被称为cumbersome model

之前的研究表明possible to compress the knowledge in an ensemble into a single model(核心思想)

ensemble model -> single model

或者cumbersome model -> efficient model

这个操作被称为模型蒸馏 distillation

一个常见的思维障碍: 认为trained model的knowledge来源于参数值,因此 hard to change form with same knowledge

更抽象的看法: 模型不属于任何实例,只是一个learned 输入到输出的映射

one-hot 编码, 用cross entropy训练时,模型总是去最大化正确类的概率,但同时,模型的其他预测可以给我们很多关于模型是如何泛化的信息,

比如, BMW 在是别的时候,误分类为benz的概率会比误分类为sea的概率大很多,从视觉上来讲,benz与bmw 更加接近,但是在训练标注中,没有这部分信息,

而且人为也很难量化,类似的有一个label-smoothing, 但是label-smoothing的平滑有点强行, 缺乏先验知识,效果一般,

感觉distillation 有一点高级版本的label-smooth的感觉,

同理, weight target 也有一点类似的感觉,比如在色情分类中, 如果一个样本是porn, 那误分为normal 的惩罚和误分为 normal 惩罚 normal更多,

都是为了加入更多的先验知识, 即学到correct way to generalize