解决pytorch的optim.load_state_dict将变量还原到CPU上的问题 - 代码天地

解决pytorch的optim.load_state_dict将变量还原到CPU上的问题

企业开发 2023-09-09 20:53:39 阅读次数: 0

最近在学习使用pytorch，遇到一个坑。

从中断的训练中继续训练需要重新加载检查点，一些优化器（比如adam）的一些变量也需要被保存到检查点中。

而在使用load_state_dict()还原时，有可能会将这些变量还原到CPU上，如下面的代码这样：

model = Model()
optimizer = Optim()
checkpoint = torch.load(ckp_path)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])
model.cuda().train()
......

像这样的话，优化器的变量就会被还原到CPU上，这在训练更新权重时会导致错误，因为模型权重在GPU上，而优化器的变量在CPU上。

造成这个问题的原因是在还原检查点之前，模型没有被转到GPU上，这样还原时，所有模型相关的变量都会被还原到CPU上。

解决办法有三。

方法一：手动转换

model = Model()
optimizer = Optim()
checkpoint = torch.load(ckp_path)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])

for state in optimizer.state.values():
    for k, v in state.items():
        if isinstance(v, torch.Tensor):
            state[k] = v.cuda()

model.cuda().train()
......

方法二：还原检查点之前，将模型转到GPU

model = Model().cuda()
optimizer = Optim()
checkpoint = torch.load(ckp_path)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])
model.cuda().train()
......

方法三：在load中设置map_location

device = torch.device("cuda")
model = Model()
optimizer = Optim()
checkpoint = torch.load(ckp_path, map_location=device)
model.load_state_dict(checkpoint["model"])
optimizer.load_state_dict(checkpoint["optimizer"])
model.cuda().train()
......

解决方法参考的https://github.com/pytorch/pytorch/issues/2830

猜你喜欢

转载自blog.csdn.net/qq_19313495/article/details/115763765

解决pytorch的optim.load_state_dict将变量还原到CPU上的问题

pytorch:load_state_dict

PyTorch加载模型model.load_state_dict()问题，Unexpected key(s) in state_dict: “module.features..，Expected .

源码详解Pytorch的state_dict和load_state_dict

pytorch状态字典state_dict, load_state_dict torch.load 以及eval,作用，保存和加载的使用

通过实例学习Pytorch加载权重.load_state_dict()与保存权重.save()

【PyTorch】state_dict详解

遇到问题：读取模型 strict=False的意思 model.load_state_dict(state_dict, strict=False)

torch.nn.Module.load_state_dict:

pytorch和paddle的存储模型变量state_dict命名规则分析

【Pytorch】加载模型避坑坑load_state_dict中的strict使用与加载多GPU训练的模型

pytorch 状态字典:state_dict

Pytorch：Unexpected key(s) in state_dict:

pytorch error missing keys in state_dict

pytorch中的model.state_dict

解决Pytorch下报错Missing key(s) in state_dict: "resnet.conv1.0.weight",和 Unexpected key(s) in state_dict

加载模型出现in load_state_dict raise RuntimeError(‘Error(s) in loading state_dict

Error(s) in loading state_dict for ResNet 问题解决

【PyTorch】Optim 优化器

Pytorch学习（十七）--- 模型load各种问题解决

Pytorch学习--- 模型load各种问题解决

使用taskset将task绑定到指定的CPU上

linux 将进程或者线程绑定到指定的cpu上

[nlp] torch.load 和 torch.load_state_dict 有什么区别

cpu load过高问题排查

PyTorch加载模型时报错RuntimeError: Error(s) in loading state_dict for *****: Missing key(s) in state_dict:

[pytorch] 从易到难解决 MNIST 问题

Unexpected key(s) in state_dict解决方案

记录一下模型加载定义时的小trick --state_dict或torch.nn.Module.load_state_dict()的strict函数

RuntimeError: Error(s) in loading state_dict for DeepLabV3: Missing key(s) in state_dict: 的解决方法

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)