MPT模型【MosaicML公司】 - 代码天地

MPT模型【MosaicML公司】

企业开发 2023-07-23 00:27:51 阅读次数: 0

AI 大模型开发公司 MosaicML 近日发布了新的可商用的开源大语言模型 MPT-30B，拥有 300 亿参数，其功能明显比前一代 MPT-7B 语言模型（70 亿参数）更强大，并且性能优于 GPT-3。

此外，他们还发布了两个经过微调的模型：MPT-30B-Instruct 和 MPT-30B-Chat，它们构建在 MPT-30B 之上，分别擅长单轮指令跟踪和多轮对话。

MPT-30B 模型具有的特点：

训练时的 8k token 上下文（context）窗口

通过 ALiBi 支持更长的上下文

通过 FlashAttention 实现高效的推理 + 训练性能

由于其预训练数据混合，MPT-30B 系列还具有强大的编码能力。

该模型已扩展到 NVIDIA H100 上的 8k token 上下文窗口，使其成为第一个在 H100 上训练的LLM。

丨MPT-30B 强于 GPT-3?

MPT-30B 是商业 Apache 2.0 许可的开源基础模型，强于原始的 GPT-3，并且与 LLaMa-30B 和 Falcon-40B 等其他开源模型具有竞争力。

（上图）MPT-30B 与 GPT-3 在九项上下文学习 (ICL) 任务上的零样本准确度。 MPT-30B 在九个指标中的六个指标上优于 GPT-3。

MosaicML 用 2 个月的时间训练了 MPT-30B，使用英伟达的 H100 GPU 集群进行训练。

如下图，MPT-30B 的训练数据：

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131692672

MPT模型【MosaicML公司】

MosaicML 推出 300 亿参数模型，训练成本 70 万

MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT

如何使用Databricks、Hugging Face和MosaicML训练大型语言模型

以太坊MPT简介

Modern Portfolio Theory - MPT

MPT树详解

系列 - 公司运作V模型

AI模型公司如何定位 ?

【以太坊源码】mpt实现

国产大模型已无公司可投

Merkle Patricia Tree (MPT) 树详解

生成mpt的金字塔简析

以太坊源码分析--MPT树

账号状态存储在MPT中的应用

Simulink object和MPT object 区别

NLP之LLMs：《Zeno Chatbot Report》的翻译与解读—CMU副教授详测七款个类ChatGPT大模型(GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Coher

公司管理与信息化基础成熟度模型

26个顶尖战略咨询公司常用分析模型详解

看雷诺公司如何提高提高基于模型的开发效率

Stable Diffusion 母公司开源大语言模型StableLM

国内大模型公司面经和感受

大模型公司「卷」芯片英伟达危？

skyline3:TerraBuilder的使用 ,mpt的创建和发布

skyline7:在fly文件中加载mpt文件

深入浅出以太坊MPT（Merkle Patricia Tree）

Merkle Patricia Tree (MPT) 以太坊merkle技术分析

以太坊学习（2）MPT树--白话版（转）

以太坊源码分析之十Merkle Patricia Tree（MPT）

以太坊MPT树的HP（Hex-Prefix）编码

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)