1、模型压缩好文章汇
https://zhuanlan.zhihu.com/p/94359189 (tinybert)
在统计学中,均方误差(英语:mean-square error、MSE)是对于无法观察的参数X的一个估计函数T;其定义为:
MSE(T)=E((X-T)^2)
在文中针对各层介绍了几种损失函数:
1、embedding层:teacher和student的词嵌入层的蒸馏均方误差损失
2、transform层蒸馏:隐层损失和attention损失
3、预测层损失,teacher和student的交叉熵损失