自然语言处理-BERT

Transformer

self-attention + Feed Forward Neural Network

Enconder:

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}}V)$

$FFN(z)=max(0,zw_1+b)w_2+b$

Decoder:

LSTM抽取特征能力弱，拼接方式融合双向特征能力弱

使用多层transformer的decoder(少了 encoder-decoder antention layer)的传统语言模型(预测下一个词语)

GPT因为采用了传统语言模型所以更加适合用于自然语言生成类的任务 (NLG)，因为这些任务通常是根据当前信息生成下一刻的信息
而BERT更适合用于自然语言理解任务 (NLU)。

为中文设计, mask时mask一个中文词语

transformer内部在Ti的上文和下文单词中，随机选择i-1个，放到Ti的上文位置中，把其它单词的输入通过Attention掩码隐藏掉.

Permutation Language Modeling(XLNet将句子中的单词随机打乱顺序，这样的话对于单词xi，它原先的上下文单词就都有可能出现在当前的上文中了) （自回归语言模型,自编码语言模型）
Two-Stream Self-Attention 解决1的问题
引入Transformer-XL,以此来获得更长距离的单词依赖关系(片段级递归机制)
Relative Segment Encoding（判断两个单词是否在同一个segment中，而不是判断它们各自属于哪个segment）

知识蒸馏是一种模型压缩方法，又叫师生学习。它训练一个小模型，使之复制大模型（或模型集成）的行为。

模型参数量小、但是时间更长，效果也只是在参数量很大的时候效果好。