原因可能是网络定义过程中存在没有进行前向计算的层,当计算loss时这些层没有参与运算,因此梯度无法传播到这些层
解决办法:
for p in model.parameters():
if p.grad is not None:
print(p.grad.data)
原因可能是网络定义过程中存在没有进行前向计算的层,当计算loss时这些层没有参与运算,因此梯度无法传播到这些层
解决办法:
for p in model.parameters():
if p.grad is not None:
print(p.grad.data)