前言

自17年Transformer出现以来，NLP各大工作都出现它的身影。最近，斯坦福还专门为transformer开了一门课程CS25: 【Stanford】CS25 Transformers United | Fall 2021

刚入门NLP的人可以看看我之前写的一篇文章研0_NLPer启程

对于对应的模型，可以去hugginface的transfomers库看看 transformers/models (github)，可以找到对应模型看看它的源码实现。

现在主要是结合上下文的动态词向量编码技术，很少使用word2vec, glove词表进行静态词向量映射了。

b站一个视频吹爆！计算机博士【NLP自然语言处理】不愧是清华教授！5小时让我搞定了NLP自然语言处理！ (虽然标题有些emm…但是看了一下目录啥的好像还行…

prompt出现之前，adapter技术也挺火,详见一篇博文一文读懂！NLP中的Adapter技术

几种常见的初始化方法: 深度学习几种常用的权重初始化方法

数据增强方法: 一文了解NLP和CV领域的数据增强

论文

CPT

论文: CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
代码: https://github.com/fastnlp/CPT, 我之前看了一下源码，发现编码器使用bert

一个编码器, 两个解码器的神奇架构，支持中文。

Bart

BART: Denoising Sequence-to-Sequence Pre-training for Natural
Language Generation, Translation, and Comprehension

T5

67页的arxiv版本论文确实好长…
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Mass

MASS: Masked Sequence to Sequence Pre-training for Language Generation

GPT

decoder架构
GPT系列沐神之前有讲过。GPT，GPT-2，GPT-3 论文精读【论文精读】_跟李沐学AI_bilibili

GPT-1

传说Bert就是受GPT-1启发有个小哥两个月内搞出来的。
Improving Language Understanding by Generative Pre-Training

GPT-2

GPT-2效果没有Bert好，但是适合做生成式任务。GPT-3有比较大(如果实验室没设备的话)，所以还是有人用GPT-2做一些demo的例子的。
Language Models are Unsupervised Multitask Learners

GPT-3

还被用作生成代码啥的。
论文: Language Models are Few-Shot Learners

Bert

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

encoder结构。bert家族很多，如蒸馏版本distilBert, 变体Roberta等。

词向量输入构成:

transformer

著名的self-attention就出自这篇文章.
Attention Is All You Need

之前复现过这个模型: transformer结构复现__attention is all you need (pytorch)

encoder-decoder结构:

Attention模块:

NLP常用Backbone模型小抄(1)

前言

论文

CPT