问题暂记:
之后看
https://blog.csdn.net/qq_23142123/article/details/80526931
https://www.zhihu.com/question/49346370
--------------------------------------------------------------
数据预处理问题,没有归一化……
如果输入的state(以DDPG为例)中有元素的值非常大,比如999这种的(我的数据里就有)
weight * 999对weight求导就是999了,更不用说batch后累加的更大了,
所以调参经验建议learning rate从0.001开始时针对归一化处理后的数据- -
reward最好也控制下范围。