GPT-5即将耗尽全球高质量数据,也许智商接近天才级别 ,AI 的未来在于其对数据永不满足的渴望

请添加图片描述

在人工智能领域,GPT-5 是下一件大事。人们一直在翘首以待它的发布,希望它能接近天才级别的智商。

但是GPT-5到底是什么,我们又能从中期待什么呢❓

首先要明白,数据将是决定 GPT-5 是否会在今年晚些时候发布,以及它是否真的接近天才级别 IQ 的决定性因素。

决定其成功的因素有很多,包括使用了多少数据、如何使用以及数据来自何处。

关于 GPT-5 的一个潜在泄密事件一直在媒体上流传,但其准确性尚未得到证实。不管这次泄漏如何,项目的规模表明 GPT-5 可能会接受大量数据的训练。

例如,Deepmind 的 Chinchilla 接受了大约 1.4 万亿个令牌的训练,而 GPT-5 可能会尽可能多地抓取高质量数据。

我们可能会在一个数量级内耗尽高质量数据

但是,正如 2022 年 10 月的这篇论文所指出的,我们可能会在一个数量级内耗尽高质量数据。这意味着我们即将耗尽 GPT-5 等大型语言模型所依赖的快速改进。

在高质量数据上训练的模型表现更好,因此使用高质量数据训练语言模型至关重要。

高质量语言数据的存量大约在 4.6 万亿到 17 万亿个单词之间,中间值估计为 9 万亿个代币。

然而,比以前大一个数量级意味着要大 10 倍,所以我们正危险地接近耗尽高质量数据。

该估计与其他估计形成对比,例如来自原始帖子的 3.2 万亿代币估计。麻省理工学院人工智能博士大卫查普曼认为 GPT-4 或 Bing 可能已经触及了网络文本桶的底部,这可能就是为什么它的反应有时会

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/129882904