LLM-202005：GPT-3（1750亿参数、45TB数量语料）【强调Few-shot，就是连finetune都省了，巨大的参数空间，可以直接few-shot甚至zero-shot】

"GPT-3: Language Models are Few-Shot Learners" (2020): https://arxiv.org/abs/2005.14165

《Language Models are Few-Shot Learners》是由OpenAI团队在2020年发表的，是介绍了基于语言模型（Language Model, LM）的小样本学习能力，也就是Few-shot Learning的能力，解决了一系列NLP中的小样本学习问题。其创新点主要有以下几点：

提出了一种新的任务范式Meta-Training（元训练）和Meta-Testing（元测试），可以让语言模型在小样本数据上进行快速学习和推理，从而可以更好地处理新的语言任务。
使用迁移学习和元学习的思想，提出了一种基于对称注意力（Symmetric Attention）的Few-shot学习框架（Few-Shot Prompt Learning, FSPL），可以让语言模型在小样本学习任务中获得更好的性能。
提出了一种新的基于预测误差的评估指标，称为META-SIM，可以更好地评估语言模型在小样本学习任务中的表现。
在多个小样本学习任务上进行了实验验证，包括文本分类、文本生成、问答系统等，证明了LM具有很强的小样本学习能力，同时也展示了FSPL方法的有效性和鲁棒性。

该论文的主要贡献在于提出了一种有效的基于语言模型的小样本学习方法，即Few-shot Learni

LLM-202005：GPT-3（1750亿参数、45TB数量语料）【强调Few-shot，就是连finetune都省了，巨大的参数空间，可以直接few-shot甚至zero-shot】

猜你喜欢