1、学习率问题
学习率要尽量小一点,一般是四位小数,并且在训练过程中不能不变要给个衰减因子使学习率下降。
if (epoch+1) > (self.num_epochs - self.num_epochs_decay):
lr -= (self.lr / float(self.num_epochs_decay))
for param_group in self.optimizer.param_groups:
param_group['lr'] = lr
2、网络结构问题
网络的层数可以很深,但是最后输出特征的尺寸不能太大,否则会显存不足。