DLRover - 小记 - 代码天地

DLRover - 小记

移动开发 2023-10-07 02:11:28 阅读次数: 0

在这里插入图片描述

文章目录

- 关于 DLRover

关于 DLRover

github : https://github.com/intelligent-machine-learning/dlrover

DLOver使大型人工智能模型的分布式训练变得简单、稳定、快速和绿色。
它可以在分布式集群上自动训练深度学习模型。
它帮助模型开发人员专注于模型结构，而不需要考虑任何工程方面的东西，比如硬件加速、分布式运行等。
现在，它为K8s/Ray上的深度学习培训工作提供自动化操作和维护。主要功能如下：

容错（Fault-Tolerance），单节点故障切换，无需重新启动整个作业。
自动缩放（Auto-Scaling），在节点级别和CPU/内存级别自动放大/缩小资源。
动态数据分片（Dynamic data sharding），动态调度训练数据到每个工人，而不是平均分配，更快的工人更多的数据。
自动资源优化（Automatic Resource Optimization），自动优化工作资源，提高培训绩效和资源利用率。

相关文章

DLRover：蚂蚁开源大规模智能分布式训练系统
https://blog.csdn.net/SOFAStack/article/details/129394779
DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践
https://blog.csdn.net/SOFAStack/article/details/132843619

2023-10-06

猜你喜欢

转载自blog.csdn.net/lovechris00/article/details/133612334

DLRover - 小记

小记

DLRover：蚂蚁开源大规模智能分布式训练系统

DLRover 如何拯救算力浪费？10 分钟自动定位故障机，1 秒内保存 Checkpoint！

python小记

vue小记

lockback小记

过年小记

redis小记

mysql小记

vsftp 小记

学习小记

linux小记

final小记

开篇小记

socket小记

spring小记

CGContext 小记

hive 小记

symbolicate小记

FileProvider小记

java 小记

小记1

record小记

jps小记

Thrift小记

hibernate 小记

Aop小记

caffe小记

jstat小记

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)