sparse reward
我们不知道行动是好是坏,大多数情况下,如果r = 0,那怎么解决呢?
例如,机器人手臂将螺栓固定在螺丝上,开发人员应该定义额外奖励来指导代理(reward shaping)。
![](https://img-blog.csdnimg.cn/img_convert/3193d02404202826bd711057317ea8fe.png)
![](https://img-blog.csdnimg.cn/img_convert/16fc7cfc9f49b08d72b4fb66912e023b.png)
reward shaping需要有一定的领域知识。
当代理看到新的(但有意义的)东西时,获得额外的奖励。
![](https://img-blog.csdnimg.cn/img_convert/0ddd2def2bd235ef2594829315ade723.png)
no reward:learning from demonstration
动机
在某些任务中,即使是定义奖励也具有挑战性。手工制作的奖励会导致不受控制的行为。
![](https://img-blog.csdnimg.cn/img_convert/df8473d62f593aff9b282bcffb7f763e.png)
没有reward的情况可以使用imitation learning
actor可以与环境互动,但奖励功能不可用。
![](https://img-blog.csdnimg.cn/img_convert/8f5cdf4e499261bc5301280d979abec6.png)
![](https://img-blog.csdnimg.cn/img_convert/5c87d095323a4cdf357236928e70c5b4.png)
在一些极端的情况下(expert没有遇到过),机器应该怎么做?
代理会复制每一个行为,甚至无关的动作。
![](https://img-blog.csdnimg.cn/img_convert/9c5dbc0ed8fbc15de969ad6857b8b8b1.png)
Inverse Reinforcement Learning
逆向强化学习会根据expert来反推出奖励方程
![](https://img-blog.csdnimg.cn/img_convert/e421a6c817586d2362b4613d707e2e66.png)
简单的reward function不一定会学到简单的actor
假设老师的reward是最好的,但是也不说完全模仿老师。
原则:老师永远是最好的。
基本理念:初始化一个参与者actor,在每次迭代中,演员与环境交互以获得一些轨迹trajectories。
定义一个奖励函数,使教师的轨迹比参与者的轨迹更好。参与者学习根据新的奖励函数最大化奖励。输出奖励函数和从奖励函数中学习到的actor。
![](https://img-blog.csdnimg.cn/img_convert/e368746fbce1aaee9ec010b91686802a.png)
![](https://img-blog.csdnimg.cn/img_convert/833963ea5cbccdc114ef43944f0d4934.png)
actor和GAN里面的generator很像,reward function和discriminator很像。
![](https://img-blog.csdnimg.cn/img_convert/cb3d555fa921704d8b633735063e1305.png)
给机器画面学习:
![](https://img-blog.csdnimg.cn/img_convert/613d36e5e1cb5e6533adb2161e1ea896.png)