问题描述
刚训练一个batch后出现以下情况:
解决方案
出现nan最有可能的情况便是学习率设置的过大,将lr设置成0.0014,即1e-3量级。就出现了以下情况:
诶,确实有了效果,不过还是出现了nan,那么继续调小,至0.00014,再将batch size增大至128(增大batch大小,可以使得网络可以更好学到数据的分布情况,当然这也要根据显存大小来调整),没有再出现nan.
刚训练一个batch后出现以下情况:
出现nan最有可能的情况便是学习率设置的过大,将lr设置成0.0014,即1e-3量级。就出现了以下情况:
诶,确实有了效果,不过还是出现了nan,那么继续调小,至0.00014,再将batch size增大至128(增大batch大小,可以使得网络可以更好学到数据的分布情况,当然这也要根据显存大小来调整),没有再出现nan.