百川智能开源大模型baichuan-7B剖析 - 代码天地

百川智能开源大模型baichuan-7B剖析

业界资讯 2023-06-21 13:01:40 阅读次数: 0

来自：吃果冻不吐果冻皮

进NLP群—>加入NLP交流群

baichuan-7B 主要是参考LLaMA进行的改进，且模型架构与LLaMA一致。而在开源大模型中，LLaMA无疑是其中最闪亮的星，但LLaMA存在如下问题：

LLaMA 原生仅支持 Latin 或 Cyrillic 语系，只使用了少量中文数据集进行训练，因此，对于中文支持不是特别理想。
原版LLaMA模型的词表大小是32K，仅有少量中文词，对于中文的解码效率较低。

baichuan-7B的改进如下：

效果改进：用于提升模型的效果以及解码效率。

分词改进：词表大小为64K（使用2000万条以中英为主的多语言语料训练分词模型，显著提升对于中文的压缩率），而LLaMA词表大小为32K。
数据集改进：使用了大约 1.2T 中英 tokens 进行训练（基于开源的中英文数据和自行抓取的中文互联网数据以及部分高质量知识性数据进行的数据清洗），而 LLaMA 7B 使用 1T 英文 tokens 进行训练。

技术改进：用于提升训练稳定性和吞吐量。

算子优化技术：采用更高效算子，如 Flash-attention，NVIDIA apex 的 RMSNorm 等。
算子切分技术：将部分计算算子进行切分，减小内存峰值。
混合精度技术：降低在不损失模型精度的情况下加速计算过程。
训练容灾技术：训练平台和训练框架联合优化，IaaS + PaaS 实现分钟级的故障定位和任务恢复。
通信优化技术，具体包括：
- 采用拓扑感知的集合通信算法，避免网络拥塞问题，提高通信效率。
- 根据卡数自适应设置 bucket size，提高带宽利用率。
- 根据模型和集群环境，调优通信原语的触发时机，从而将计算和通信重叠。

此外，该模型开源可商用，也算是一个优势吧。

可以看到，现在的大模型，从算法层面改进的空间似乎很小了，更多的是从工程和数据层面上进行改进从而来提升其性能。

最后，希望国产大模型越来越好~~

进NLP群—>加入NLP交流群

猜你喜欢

转载自blog.csdn.net/qq_27590277/article/details/131266726

百川智能开源大模型baichuan-7B剖析

【人工智能】国产开源大模型 baichuan-7B 百川聊天 BaiChat 快速开始上手实战&效果实测 —— 希望 baichuan-7B 再打磨打磨吧

百川开源大模型 Baichuan-13B 评测

【AIGC】baichuan-7B大模型

苏州大学推出开源大模型OpenBA；阿里云开源通义千问14B模型；百川智能发布Baichuan2-53B 闭源大模丨每日大事件...

部署百川大语言模型Baichuan2

LLM InternLM-Chat-7B书生模型、Baichuan-13B-Chat百川模型简单使用

百川智能开源最新商用大模型！王小川：比LLaMA更香，下一枪打ChatGPT

你好，我是百川大模型｜国内可开源免费商用Baichuan2揭秘

baichuan-7B模型介绍及微调

【AI实战】开源可商用的中英文大语言模型baichuan-7B，从零开始搭建

谷歌自研芯片秘辛首次曝光；黑客要价 10 万美元出售雷蛇源代码等数据；百川智能发布 Baichuan-13B大模型（提供源码）

baichuan-7B: 开源可商用支持中英文的最好大模型

大语言模型工程化四----------baichuan-7B fastapi接口服务

百川的大模型KnowHow

华为麒麟芯片或将冲击高通业绩；胡润发布中国能源民营企业TOP100；百川智能发布Baichuan 2大模型丨每日大事件...

百川智能招大模型实习算法工程师了！

大模型百川2技术报告细节分享

百川大模型部署排错实战笔记

NLP（六十三）使用Baichuan-7b模型微调人物关系分类任务

LLMs之Baichuan：Baichuan-13B模型的简介(包括Baichuan-7B)、安装、使用方法之详细攻略

开源第一！元象国产大模型在权威评测超越Llama2和百川

百川智能发布首个530亿参数闭源大模型，今年追上GPT-3.5

中文模型的奋起直追：MOSS、baichuan-7B和ChatGLM2-6B的原理、部署与微调

【AIGC】BaiChuan7B开源大模型介绍、部署以及创建接口服务

百川智能发布开源中英文大模型；GitHub调查显示92%的程序员使用AI编码工具；第一季度中国云服务支出增长6%丨每日大事件...

【大模型】在linux上使用nvidia显卡，使用llam.cpp框架运行Baichuan-7B 模型，可以成功运在CPU和GPU下运行，int4量化版本速度飞快。

Baichuan2开源大模型正式发布，王小川：性能超过LLaMA2

NLP（五十九）使用FastChat部署百川大模型

2023年的深度学习入门指南(21) - 百川大模型

今日推荐

周排行

Java基础系列-Java11特性解读

前端面试查漏补缺--(十一) 前端软件架构模式MVC/MVP/MVVM

java Listener监听器

矩阵的迹

运用MVP实现二级联动

019基于JSP的学生考勤管理系统(MySQL版)

一道逻辑题 - 我拿走了哪个数

C# 通用单例窗体类

分布式之消息队列复习精讲【转】

Mac 使用.bash_profile

每日归档

更多

2024-07-11(0)

2024-07-10(0)

2024-07-09(0)

2024-07-08(0)

2024-07-07(0)

2024-07-06(0)

2024-07-05(0)

2024-07-04(0)

2024-07-03(0)

2024-07-02(0)