记录一下别人的调参经验

我看了你的epsilon初始设置很高,你的loss函数变化应该和这个有关。epsilon初始太高是没用的,因为即使学到了东西他也不会去执行,导致无法用学到的东西去产生更有用的经验。而且中间loss暴涨,我觉得可能是因为agent学到了策略,但是由于epsilon太大,如果前后两次动作一次随机,一次最优,这样就会导致loss很大。

猜你喜欢

转载自www.cnblogs.com/awgn/p/12339929.html