模型压缩文章总结

1、模型压缩好文章汇

https://zhuanlan.zhihu.com/p/94359189 (tinybert)

统计学中,均方误差(英语:mean-square error、MSE)是对于无法观察的参数X的一个估计函数T;其定义为:

MSE(T)=E((X-T)^2)

在文中针对各层介绍了几种损失函数:

preview

1、embedding层:teacher和student的词嵌入层的蒸馏均方误差损失

2、transform层蒸馏:隐层损失和attention损失

3、预测层损失,teacher和student的交叉熵损失

猜你喜欢

转载自blog.csdn.net/u013069552/article/details/109785717