用ColossalAI完成一次完整的预训练

 太难了,累懵了,全是坑...

      最近没更新,其实有机会(怎么个机会不细说了)可以玩玩两台新出炉的H100,而且是8卡400G IB的,这两台估计已经超过了库里南的价格了, 极其的豪华...

Image

Image

      因为我正好没看《乡村爱情15》,我买了个youku会员,可以边看《乡村爱情15》边拿H100跑一跑训练,看看具体怎么个实力。

      但是时间有限啊,主要是成本,那好钢要用在刀刃上,所以我在考虑用什么来测试它, 我没玩过megatron,deepspeed又弄过了,所以我挑战了一下Colossal,然后就被一顿教育...

      怎么说呢?东西是好东西,应该是我看过的集预制能力和自由度为一体的好项目,正好集合了megatron和deepspeed的优点,可是这代码质量和维护项目的速度真的是...

      具体的细节我后面会再写一篇文章写,也不是单独针对Colossal的,因为像分布式训练的一些基础,我觉得非常有必要深入浅出的多写几篇文章才能说明白,估计TP,PP,DDP,Gemini,Zero,1D,  2D, 2.5D,3D,每个概念都够水一篇文章的了

Image

      有道是光说不练,假把式,所以今天呢,先从一个demo做起,让大家先看一下它是怎么个操作流程和玩法(我改动的一些原始代码就算了,第一太多,第二这一个礼拜改的太多,

猜你喜欢

转载自blog.csdn.net/kingsoftcloud/article/details/135014510