Caffe训练深度学习网络的暂停与继续

其他 2018-11-06 03:02:34 阅读次数: 0

版权声明：如需转载请评论告知并标明出处 https://blog.csdn.net/ShuqiaoS/article/details/83419199

Caffe训练深度学习网络的暂停与继续

博主在训练Caffe模型的过程中，遇到了如何暂停训练并断点继续训练的问题。在此记录下有关这个问题的几种解决方案。更新于2018.10.27。

方法1：临时暂停

这种方法是用于临时暂停Caffe训练，暂停后可以以完全相同的配置从断点处继续训练。如果此时训练中记录了log文件，那么继续后，从log文件中完全看不出暂停的痕迹，是一份完整的记录。

但是，这样暂停后，虽然查看GPU的使用率为0，但仍然无法释放程序所占用的那一部分GPU，也就是说，无法暂停后训练另外的网络，或测试非常大的网络。且，此时的终端不能关闭。

命令

暂停：

Ctrl+z

开始：

fg
回车

方法2：停止训练，下次训练从记录的参数开始

这种暂停方法其实相当于多次训练，区别是，继续训练时，可以用之前暂停时得到的参数初始化网络。也就是说，这种暂停再开始后可以看成是对之前网络的finetune。为了实现这种继续训练的目的，需要在训练时编辑solver文件，设定snapshot，从而保证训练过程每隔一段间隔就会记录一次参数。

好处是，停止后，GPU完全释放，可以进行其他的操作。

猜你喜欢

转载自blog.csdn.net/ShuqiaoS/article/details/83419199

Caffe训练深度学习网络的暂停与继续

caffe python接口搭建&训练深度学习网络

linux黑屏重启 caffe 训练深度学习网络crfasrnn deeplab

深度学习网络的训练技巧

caffe深度学习网络(.prototxt)可视化工具

深度学习网络

深度学习网络训练中出现nan的原因分析

训练深度学习网络时候，出现Nan原因总结

深度学习网络训练不收敛问题

深度学习实战——caffe windows 下训练自己的网络模型

深度学习网络 | GoogLeNet

初期深度学习网络

深度学习网络的发展

caffe深度学习网络(.prototxt)在线可视化工具：Netscope Editor

caffe继续训练

深度学习网络篇——VGGNet（Part1 网络结构&训练环节）

深度学习网络训练中出现loss函数为nan的原因

《深度学习网络训练--第一讲》数据采集与数据预处理

深度学习网络篇——ZFNet（Part2 ZFNet的训练细节）

训练深度学习网络时候，出现Nan是什么原因

没有独立显卡，虚拟的显卡，能进行深度学习网络训练吗

目标检测 -- 基于训练好的YOLO深度学习网络模型实现自动辅助标注

Caffe深度学习入门（5）—— caffenet 微调网络训练自己的数据并测试训练的模型

深度学习网络 | ResNext解析

深度学习网络 | ResNet解析（3）

深度学习网络 | ResNet解析（2）

深度学习网络调参技巧

深度学习网络设计流程

深度学习网络篇——AlexNet

轻量级深度学习网络概览

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)