大模型相关论文100篇短笔记【 2023-04-17】

自ChatGPT诞生以来,我也读了不少论文了,攒够100篇,分享一下。

有些不算严格意义上的论文,有些也不是严格意义上的大模型论文,反正笔记分类时算进来就当是大模型相关吧。

包括CV和NLP的,主要是大语言模型。

当然也包括不少水论文。

有些笔记可能存在错误等情况,是因为写的时候功力还远不足,理解不到位,也懒得回去改了。

仅供大家选论文参考。

我还是科研小白,和大家一起学习。


1.Language Models are Few-Shot Learners
GPT-3的论文。GPT-2还不够大,所以到了GPT-3就有了海量参数(1750亿)。
由于发现few-shot和one-shot的性能往往比zero-shot高很多(这三者都没有梯度传播,只是提供少量例子或者不提供),所以他们认为语言模型可以看做是元学习者,这导致GPT-3的学习方法也类似于元学习。GPT-3使用的是情景学习(in-context learning),GPT-3论文中说GPT-2也用了类似的方法,不过情景学习这个概念是GPT-3才提出来的。


按照我目前的理解,情景学习就是在预训练外循环中增加一些内部小循环,让它在训练过程中就学习到了一定的任务,这样在使用时

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/132548416