RoBERTa记录

在这里插入图片描述

 RoBERTa: A Robustly Optimized BERT Pretraining Approach

相比于BERT的改进:

  1. 用更大的batchs、更多的数据对模型进行更长时间的训练
  2. 去除next sentence prediction 目标
  3. 使用较长序列的训练
  4. 动态改变应用于训练数据的mask模式。

猜你喜欢

转载自blog.csdn.net/qq_43390809/article/details/110959244