最近发现了一个问题,训练好的模型,跑测试集表现很好,于是将模型参数持久化保存下来(注意,并非全部模型)。重新加载模型参数,用模型的子跑测试集,发现结果差异很大,而且重新加载的模型表现非常差。
但是输出两次的模型的参数,比对发现一模一样。
原模型部分参数:
加载后部分参数:
Columns 450 to 459
1.00000e-02 *
1.9667 0.9598 3.9522 -3.1167 -2.8657 0.3075 -0.6034 -0.6264 0.3756 -2.0191
Columns 460 to 469
1.00000e-02 *
-0.4512 -0.1208 -1.0832 -0.2208 -0.6696 0.9859 0.0443 -1.9716 -1.9004 1.9636
Columns 470 to 479
1.00000e-02 *
-0.2176 -3.6969 -1.7151 -1.7377 -0.6285 0.0895 -0.2345 -0.5603 -3.3907 3.5567
Columns 480 to 489
1.00000e-02 *
0.1213 -0.4735 -1.7273 -0.3213 -3.8405 1.1541 3.8767 -1.0867 -0.9901 -1.0931
Columns 490 to 499
1.00000e-02 *
-0.7516 -2.8584 3.0791 -1.5041 -1.4384 -2.3403 2.5502 -3.0750 -0.7125 -1.6866
Columns 500 to 509
1.00000e-02 *
3.1194 1.1014 2.4170 0.0566 -0.6791 -0.1238 -1.0581 -0.4843 -1.8966 0.3253
Columns 510 to 511
1.00000e-02 *
1.7964 -2.0853
可以看到,参数并没问题。并且重新加载后,也将模型设置为测试状态。
问题在于:
首先,我用了dropout和Batch Normailization
使用某个module对象的子module进行测试时,需要先取子module,然后转换子module的状态到eval,然后测试。而不能是先将module对象的状态变成eval,再取子module。因为这样子module的状态还是train。如果重复eval的话,最终模型输出的结果有偏差(虽然我也不知道为什么,但实验了一下就是这样)
class Net(torch.nn.Module):
def __init__(self):
self.subnet=torchvision.models.ResNet50()
.....
#错误做法
net=Net()
net.eval()
subnet=net.subnet #此时如果打印subnet的training的话是True
#正确做法
net=Net()
subnet=net.subnet #此时如果打印subnet的training的话是True
subnet.eval()