Pytorch 0.3 模型与重新加载持久化后同参数模型，最终表现不一致问题

最近发现了一个问题，训练好的模型，跑测试集表现很好，于是将模型参数持久化保存下来（注意，并非全部模型）。重新加载模型参数，用模型的子跑测试集，发现结果差异很大，而且重新加载的模型表现非常差。
但是输出两次的模型的参数，比对发现一模一样。

原模型部分参数：

这里写图片描述
加载后部分参数：

Columns 450 to 459 
1.00000e-02 *
  1.9667  0.9598  3.9522 -3.1167 -2.8657  0.3075 -0.6034 -0.6264  0.3756 -2.0191

Columns 460 to 469 
1.00000e-02 *
 -0.4512 -0.1208 -1.0832 -0.2208 -0.6696  0.9859  0.0443 -1.9716 -1.9004  1.9636

Columns 470 to 479 
1.00000e-02 *
 -0.2176 -3.6969 -1.7151 -1.7377 -0.6285  0.0895 -0.2345 -0.5603 -3.3907  3.5567

Columns 480 to 489 
1.00000e-02 *
  0.1213 -0.4735 -1.7273 -0.3213 -3.8405  1.1541  3.8767 -1.0867 -0.9901 -1.0931

Columns 490 to 499 
1.00000e-02 *
 -0.7516 -2.8584  3.0791 -1.5041 -1.4384 -2.3403  2.5502 -3.0750 -0.7125 -1.6866

Columns 500 to 509 
1.00000e-02 *
  3.1194  1.1014  2.4170  0.0566 -0.6791 -0.1238 -1.0581 -0.4843 -1.8966  0.3253

Columns 510 to 511 
1.00000e-02 *
  1.7964 -2.0853

可以看到，参数并没问题。并且重新加载后，也将模型设置为测试状态。

问题在于：
首先，我用了dropout和Batch Normailization
使用某个module对象的子module进行测试时，需要先取子module，然后转换子module的状态到eval，然后测试。而不能是先将module对象的状态变成eval，再取子module。因为这样子module的状态还是train。如果重复eval的话，最终模型输出的结果有偏差（虽然我也不知道为什么，但实验了一下就是这样）

class Net(torch.nn.Module):
    def __init__(self):
        self.subnet=torchvision.models.ResNet50()
        .....
#错误做法
net=Net()
net.eval()
subnet=net.subnet #此时如果打印subnet的training的话是True

#正确做法
net=Net()
subnet=net.subnet #此时如果打印subnet的training的话是True
subnet.eval()

GZKPeng

发布了55 篇原创文章 · 获赞 238 · 访问量 21万+

私信关注

Pytorch 0.3 模型与重新加载持久化后同参数模型，最终表现不一致问题

猜你喜欢