本文成果:
从一个wide and deep的网路蒸馏成一个thin and deeper的网络。
主要的方法如下图所示:
实际上是在KD的基础上,增加了一个中间层的知识蒸馏。
以下是KD的主要方法:
训练要点:
两个loss function:
(1)Teacher网络的某一中间层的权值为Wt=Whint,Student网络的某一中间层的权值为Ws=Wguided。使用一个映射函数Wr来使得Wguided的维度匹配Whint,得到Ws'。其中对于Wr的训练使用MSEloss:
扫描二维码关注公众号,回复:
9830319 查看本文章
(2) 另外一个是改造的softmax loss(具体见Hinton的论文):