什么是机器强化学习？原理是什么？

强化学习(RL)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。

那么什么是强化学习？

强化学习是智能系统从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历或能力进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改动方案以适应环境。

通俗的讲，就是当一个小孩学习有迷茫或困惑时，如果老师发现小孩方法或思路正确，就给他(她)正反馈(奖励或鼓励);否则就给他(她)负反馈(教训或惩罚)，激励小孩的潜能，强化他(她)自我学习能力，依靠自身的力量来主动学习和不断探索，最终让他(她)找到正确的方法或思路，以适应外部多变的环境。

强化学习有别于传统的机器学习，不能立即得到标记，而只能得到一个反馈(奖或罚)，可以说强化学习是一种标记延迟的监督学习。强化学习是从动物学习、参数扰动自适应控制等理论发展而来的。

强化学习原理：

如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

若已知R/A梯度信息，则可直接可以使用监督学习算法。因为强化信号R与Agent产生的动作A没有明确的函数形式描述，所以梯度信息R/A无法得到。因此，在强化学习系统中，需要某种随机单元，使用这种随机单元，Agent在可能动作空间中进行搜索并发现正确的动作。

免费分享一些我整理的人工智能学习资料给大家，整理了很久，非常全面。包括一些人工智能基础入门视频+AI常用框架实战视频、图像识别、OpenCV、NLP、YOLO、机器学习、pytorch、计算机视觉、深度学习与神经网络等视频、课件源码、国内外知名精华资源、AI热门论文等。

下面是部分截图，文末附免费下载方式。

一、人工智能免费视频课程和项目

二、人工智能必读书籍

三、人工智能论文合集

四、机器学习+计算机视觉基础算法教程

五、深度学习机器学习速查表（共26张）

学好人工智能，要多看书，多动手，多实践，要想提高自己的水平，一定要学会沉下心来慢慢的系统学习，最终才能有所收获。

什么是机器强化学习？原理是什么？

下面是部分截图，文末附免费下载方式。

点击下方名片，扫码免费下载文中资料。

猜你喜欢