什么是机器强化学习?原理是什么?

强化学习(RL),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。

那么什么是强化学习?

强化学习是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历或能力进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改动方案以适应环境。

通俗的讲,就是当一个小孩学习有迷茫或困惑时,如果老师发现小孩方法或思路正确,就给他(她)正反馈(奖励或鼓励);否则就给他(她)负反馈(教训或惩罚),激励小孩的潜能,强化他(她)自我学习能力,依靠自身的力量来主动学习和不断探索,最终让他(她)找到正确的方法或思路,以适应外部多变的环境。

强化学习有别于传统的机器学习,不能立即得到标记,而只能得到一个反馈(奖或罚),可以说强化学习是一种标记延迟的监督学习。强化学习是从动物学习、参数扰动自适应控制等理论发展而来的。

强化学习原理:

如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。

若已知R/A梯度信息,则可直接可以使用监督学习算法。因为强化信号R与Agent产生的动作A没有明确的函数形式描述,所以梯度信息R/A无法得到。因此,在强化学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作空间中进行搜索并发现正确的动作。

免费分享一些我整理的人工智能学习资料给大家,整理了很久,非常全面。包括一些人工智能基础入门视频+AI常用框架实战视频、图像识别、OpenCV、NLP、YOLO、机器学习、pytorch、计算机视觉、深度学习与神经网络等视频、课件源码、国内外知名精华资源、AI热门论文等。

下面是部分截图,文末附免费下载方式。

目录

一、人工智能免费视频课程和项目

二、人工智能必读书籍

三、人工智能论文合集

四、机器学习+计算机视觉基础算法教程

 五、深度学习机器学习速查表(共26张)

学好人工智能,要多看书,多动手,多实践,要想提高自己的水平,一定要学会沉下心来慢慢的系统学习,最终才能有所收获。

点击下方名片,扫码免费下载文中资料。

猜你喜欢

转载自blog.csdn.net/gu1857035894/article/details/126272721