版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
强化学习中,agent的每个action, 只能收到一个间接的反馈(进入到的状态,N步之后可能才有正/负Reward);
A.
强化学习的核心任务:学习一个从状态空间S到动作空间A的映射,最大化累积收益。
价值迭代:每轮更新所有状态的状态价值函数和动作价值函数的值,等于是策略得到了更新;
策略迭代:每轮内部,所有状态使用一开始的策略,只更新状态价值函数,直至收敛,该轮结束再更新动作价值函数和策略;
B. 深度Q-Learning
走步时,用,在探索和利用之间作平衡;(评估用的是)
连续4帧的图像堆叠,作state;
用MSE做损失函数,执行梯度下降更新Q网络;
先探索很多帧之后,再开始从库里抽样进行训练,当前走的帧和该步抽样训练的样本无关系;
C. 策略梯度
D. 探索与利用
的不足:探索时,对所有菜都均等概率的试探;应该把重心放到试吃次数少的菜上