BN和LN的应用场景和特点

BN和LN的关系

BN 和 LN 都可以比较好的抑制梯度消失和梯度爆炸的情况。BN不适合RNN、transformer等序列网络,不适合文本长度不定和​​batchsize​​较小的情况,适合于CV中的CNN等网络;
而LN适合用于NLP中的RNN、transformer等网络,因为sequence的长度可能是不一致的。
栗子:如果把一批文本组成一个batch,BN就是对每句话的第一个词进行操作,BN针对每个位置进行缩放就不符合NLP的规律了。

小结

(1)经过BN的归一化再输入激活函数,得到的值大部分会落入非线性函数的线性区,导数远离导数饱和区,避免了梯度消失,这样来加速训练收敛过程。

猜你喜欢

转载自blog.csdn.net/WitsMakeMen/article/details/131626186