GPT1，2，3

业界资讯 2023-08-12 00:42:25 阅读次数: 0

GPT1

transformer解码器因为有掩码所以不看后面的东西
gpt就是transformer的解码器，bert 是transformer的编码器
gpt核心卖点：不管输入如何，transformer模型不会变

半监督：先在没有标号上进行训练，再到有标号上进行微调

GPT2

GPT2对于GPT的改进：在子任务上不给任何相关样本，即zeroshot，并且加大训练数据量
zero shot问题：在下游任务中遇到没有见过的符号模型会很困惑，因此下游任务输入不能引入模型没有见过的符号

数据来源：解决文本数据难找的问题：在reddit上寻找所有karma>3的文本进行训练

GPT3

GPT2的有效性相对较低，GPT3尝试去解决GPT2的有效性低的问题

gpt3卖点：特别大，在做子任务的时候不需要算梯度
把gpt2的 zeroshot改成few shot，即提供一定的学习样本
值得注意的是，该模型并不像平时训练一样批量(batchsize)上升，学习率也相对调高,而是批量上升，学习率下降

数据来源：二分类，把common craw里面高质量数据筛选
痛点：计算量指数增加，精度线性下降
局限：

1）文本生成较弱
2）结构和算法局限性
3）样本有效性不够
4）可解释性差

扫描二维码关注公众号，回复： 16160910 查看本文章

猜你喜欢

转载自blog.csdn.net/Scabbards_/article/details/131115070

GPT1，2，3

GPT系列解读--GPT1

Jenkins学习总结（1,2,3）

nginx $1,2,3的含义

范式理论1,2,3范式

mysql id in('1,2,3') 和 in(1,2,3)的区别

将1,2,3转化为[“1“,“2“,“3“]

列表-alist=[1,2,3]，alist*3与[alist]*3

将CCUserDefault的“1,2,3”转化为数组

n级台阶 1,2,3 步走法

javaScript：关于 [1,2,3]map(parseInt)问题的解析

LeetCode 刷题记录（1,2,3）—Java语言

jsp分页，分页形式（<1，2，3······>）

A-django项目步骤（后续1,2,3,）

contest-hunter Chapter 1,2,3

python 基础学习--list[1,2,3]集合(),字典{}

只出现一次的数字 1,2,3

语义分割之fcn和deeplab1,2,3,

LeetCode Top100之1,2,3题

a = [1,2,3] 和 b = [(1),(2),(3) ] 以及 b = [(1,),(2,),(3,) ] 的区别？

GPT系列学习笔记：GPT、GPT2、GPT3GPT系列学习笔记：GPT、GPT2、GPT3

如何把['1,2,3']转换成['1','2','3']

GPT1解读：Improving Language Understanding by Generative Pre-Training

add(1,2) add(1)(2) add(1)(2)(3) add(1,2,3)(4)

《2013李永乐线性代数强化班》视频1，2，3

给1,2,3维数组指针开辟空间或销毁释放空间

Lintcode 买卖股票的最佳时机系列问题1，2，3

for I in [] or [1,2,3] 这种用法你肯定没见过吧

李宏毅ML lecture-1,2,3 线性回归及梯度下降

统计数字 1,2,3 ... n 出现 0~9 的个数

今日推荐

【学术精选】遥感领域高水平期刊：J-STARS 期刊介绍

探索二次元新境界：Han1meViewer——您的专属动漫神器

Java毕业设计：基于Java福建省地方特产销售商城系统毕业设计源代码作品和开题报告

【机器学习】自动驾驶——智能交通与无人驾驶技术的未来

智谱清影的魅力：使用CogVideoX-2b生成6秒视频的真实体验！

苹果可能将于 2025 年推出首款智能显示器和配套操作系统 homeOS

源码解析：从零解读SAM(Segment Anything Model)大模型！

《王者荣耀》鸿蒙原生版开启限量删档测试

fl studio v20.8中文破解版(附Crack文件+图文安装教程)

AI驱动TDSQL-C Serverless 数据库技术实战营-电商可视分析

828华为云征文 | 将Vue项目部署到Flexus云服务器X实例并实现公网访问

Java毕业设计：Java江西南昌城市文化展示网站系统毕业设计源代码作品和开题报告

周排行

单向链表的运用---一元多项式的加减详解

WEEK13 GITHUB

C语言左移和右移

四个概念详细分析servlet、filter、listener、interceptor的区别与联系

C语言如何使用print语句 %d%c%s

11.代码测试、维护

LAMMPS安装-给新手的建议

Android在页面上写字,居中写文字

OracleSID在本机上已经存在,请指定一个不同的SID的解决办法

开复老师的回信

每日归档

更多

2024-10-07(64)

2024-10-06(2)

2024-10-05(62)

2024-10-04(63)

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)