NLP领域中的语言模型大体可以分为两类:
AR:Autoregressive Language Modeling (自回归语言模型)
定义:依据前 t - 1 个(或后 t - 1 个)tokens来预测当前时刻 t 的token,代表作有 ELMO, GPT。以GPT举例,GPT使用的是标准的语言模型,是一种前向未来预测模型,公式表示为
AE:Autoencoding Language Modeling(自编码语言模型)
定义:通过上下文信息来预测被 mask(或中心词) 的 token,通俗地被称为“完形填空”,代表有 BERT , Word2Vec(CBOW) ,公式一般表示为:
优缺点比较:
AR :
-
缺点:
扫描二维码关注公众号,回复: 15182257 查看本文章-
只能利用单向语义信息,而不能结合上下文信息进行预测。虽然ELMO通过前后双向分别构建AR模型,然后融合,但从结果来看,效果并不是太好;
-
需要大量样本和调优,未来推演or预测的方式使得模型训练困难。
-
-
优点: 适合构建生成模型,符合生成式任务的生成过程。这也是GPT系列能够用于AIGC,问答等领域的主要原因
AE :
-
缺点:
-
预训练数据使用 [MASK] 标记需要预测的 token,但在各类需要微调的任务中 [MASK] ,进而导致两阶段 input 不一致;
-
BERT独立假设问题,没有对被遮掩为 [MASK] 的token之间的关联进行学习;
-
“完形填空”式的训练策略,不适用于生成式问题。
-
-
优点: 能够很好的编码、利用、融合上下文语义信息,类似于BERT中的双向transfomer encoder, 在自然语言理解相关的下游任务上表现突出。