书籍:reinforcement learning
博客:https://blog.csdn.net/lagrangesk/article/details/80943045
一、强化学习
人类通常从与外界环境的交互中学习。
当我们在开车或者聊天时,我们会意识到自身行为会收到环境的反馈,然后根据行为去得到想要的结果。
强化学习是指从环境状态到行为映射的学习以使系统行为从环境中获得的累积奖励值最大。强化学习描述的是一个与环境交互的学习过程。
以人开车为例,将人和车作为一个整体(agent),外界红绿灯、车道线等信息构成了环境(environment),然后人通过控制车辆向左、向右转弯或者直行的动作(action),影响了这个环境的状态(state),比如说前方有车,向右转弯后车道前没有车辆,这就说明车辆的动作影响了环境的状态。
但是,仅仅有了agent、environment、state和action还不够,需要有一个奖惩来指导agent的行动,这就是reward,比如车辆闯红灯会收到罚单。那么说到这里,大家一定很好奇:reward是如何指导强化学习的呢?首先我们要从强化学习的特性说起。
强化学习的两个重要特性:
- 试措搜索(trial -and-error search)
- 延期强化(deplayed reinforcement)
强化学习模型: