前言
自17年Transformer出现以来,NLP各大工作都出现它的身影。最近,斯坦福还专门为transformer开了一门课程CS25: 【Stanford】CS25 Transformers United | Fall 2021
刚入门NLP的人可以看看我之前写的一篇文章 研0_NLPer启程
对于对应的模型,可以去hugginface的transfomers库看看 transformers/models (github), 可以找到对应模型看看它的源码实现。
现在主要是结合上下文的动态词向量编码技术,很少使用word2vec, glove词表进行静态词向量映射了。
b站一个视频 吹爆!计算机博士【NLP自然语言处理】不愧是清华教授!5小时让我搞定了NLP自然语言处理! (虽然标题有些emm…但是看了一下目录啥的好像还行…
prompt出现之前,adapter技术也挺火,详见一篇博文 一文读懂!NLP中的Adapter技术
几种常见的初始化方法: 深度学习几种常用的权重初始化方法
数据增强方法: 一文了解NLP和CV领域的数据增强
论文
CPT
论文: CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
代码: https://github.com/fastnlp/CPT, 我之前看了一下源码,发现编码器使用bert
一个编码器, 两个解码器的神奇架构,支持中文。
Bart
T5
67页的arxiv版本论文确实好长…
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
Mass
MASS: Masked Sequence to Sequence Pre-training for Language Generation
GPT
decoder架构
GPT系列沐神之前有讲过。GPT,GPT-2,GPT-3 论文精读【论文精读】_跟李沐学AI_bilibili
GPT-1
传说Bert就是受GPT-1启发有个小哥两个月内搞出来的。
Improving Language Understanding by Generative Pre-Training
GPT-2
GPT-2效果没有Bert好,但是适合做生成式任务。GPT-3有比较大(如果实验室没设备的话),所以还是有人用GPT-2做一些demo的例子的。
Language Models are Unsupervised Multitask Learners
GPT-3
还被用作生成代码啥的。
论文: Language Models are Few-Shot Learners
Bert
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
encoder结构。bert家族很多,如蒸馏版本distilBert, 变体Roberta等。
词向量输入构成:
transformer
著名的self-attention就出自这篇文章.
Attention Is All You Need
之前复现过这个模型: transformer结构复现__attention is all you need (pytorch)
encoder-decoder结构:
Attention模块: