人脸识别深度学习分布式训练环境搭建1

参考:https://github.com/kaust-vislab/horovod-gpu-data-science-project

           https://github.com/horovod/horovod

一、hovorod简介

        Horovod是Uber开源的又一个深度学习工具,它的发展吸取了Facebook "Training ImageNet In 1 Hour" 与百度 "Ring Allreduce" 的优点,可为用户实现分布式训练提供帮助。

       由于 TensorFlow 集群太不友好,业内也一直在尝试新的集群方案。2017 年 Facebook 发布了《Accurate, large minibatch SGD: Training ImageNet in 1 hour 》验证了大数据并行的高效性,同年百度发表了《Bringing HPC techniques to deep learning 》,验证了全新的梯度同步和权值更新算法的可行性。受这两篇论文的启发,Uber 开发了 Horovod 集群方案。

二、环境部署

1、安装cuda

(1)下载https://developer.nvidia.com/cud

猜你喜欢

转载自blog.csdn.net/kupe87826/article/details/107540400