从 https://en.wikipedia.org/wiki/Reinforcement_learning

一、说明

强化学习（RL）是机器学习的一个领域，涉及智能体应该如何在环境中采取行动，以最大化累积奖励的概念。强化学习是三种基本的机器学习范式之一，与监督学习和无监督学习并列。

强化学习与监督学习的不同之处在于不需要呈现标记的输入/输出对，并且不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。

该环境通常以马尔可夫决策过程 (MDP) 的形式表示，因为这种环境下的许多强化学习算法都使用动态编程技术。 [2]经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设了解 MDP 的精确数学模型，并且它们的目标是大型 MDP，而精确方法变得不可行。

二、关于强化学习的介绍

强化学习 (RL) 场景的典型框架：代理在环境中采取行动，该操作被解释为奖励和状态表示，然后反馈给代理。
由于其通用性，强化学习在许多学科中得到研究，例如博弈论、控制论、运筹学、信息论、基于模拟的优化、多智能体系统、群体智能和统计学。在运筹学和控制文献中，强化学习被称为近似动态规划或神经动态规划。强化学习中感兴趣的问题也在最优控制理论中进行了研究，该理论主要关注最优解的存在和表征，以及其精确计算的算法，而较少关注学习或近似，特别是在缺乏环境的数学模型。在经济学和博弈论中，强化学习可以用来解释有限理性下均衡是如何产生的。

基本强化学习被建模为马尔可夫决策过程 (MDP)：

一组环境和代理状态 S；
代理的一组动作 A；
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ 是转移概率（在时间 t) 来自状态 s 说明 ′ s' 正在行动 A。
$R_a(s,s')$ $R_a(s,s')$ 是从转换后的立即奖励，在从s到 ′ s'转化和行动 a。

强化学习的目的是让代理学习最优或接近最优的策略，以最大化“奖励函数”或其他用户提供的从即时奖励中累积的强化信号。这类似于动物心理学中出现的过程。例如，生物大脑天生会将疼痛和饥饿等信号解释为负强化，并将快乐和食物摄入解释为正强化。在某些情况下，动物可以学会采取优化这些奖励的行为。这表明动物具有强化学习的能力。

三、强化学习（RL）和监督学习

强化学习（RL）和监督学习（SL）是两种流行的机器学习技术。两者都有自己的优点和缺点。以下是每种方法的一些优缺点：

强化学习（RL）优点：

RL 非常适合处理复杂和动态的环境，例如机器人、自动驾驶汽车和游戏。
RL可以处理连续的动作空间，使其非常适合模拟中的机器人控制和连续控制等任务。
RL可用于做出实时决策，这对于机器人和自动驾驶汽车等任务非常重要。
RL可以处理不确定性，并根据不完整或不确定的信息做出决策。
它可以从与环境的相互作用中学习，并随着时间的推移而改进。

强化学习（RL）缺点：

RL 需要大量数据，并且可能很难收集足够的数据来训练 RL 模型。
RL 可能是计算密集型的，需要大量资源来训练和运行。
RL 可能难以调试和解释，因为通常很难理解模型做出某些决策的原因。
RL对奖励函数的选择很敏感，在某些情况下可能很难定义。

监督学习（SL）优点：

SL的实现和理解相对简单，使广泛的用户可以访问它。
SL可以处理大量数据，使其非常适合图像和语音识别等任务。
SL 可用于分类和回归任务。
SL模型可以很容易地解释，因为输入和输出之间的关系是明确的。
SL模型可以通过添加更多数据和调整参数进行微调或改进。

监督学习（SL）缺点：

SL 需要标记的数据，收集这些数据可能既昂贵又耗时。
SL假设输入和输出之间的关系是固定的，这在动态或不断变化的环境中可能并非如此。
当测试数据与训练数据不同时，SL 的性能可能很差，这种现象称为过度拟合。
SL可能无法处理某些类型的数据，例如顺序或非结构化数据。

总之，RL和SL都有自己的优点和缺点。RL 非常适合处理复杂和动态环境，而 SL 更易于实现和理解，并且可以处理大量数据。方法的选择将取决于具体任务和可用资源。

四、为什么要迁移到强化学习

强化学习（RL）是一种机器学习，专注于通过最大化奖励信号来训练代理在环境中做出决策。以下是您可能需要考虑迁移到 RL 的六个原因：

处理复杂性：RL 可以处理高度复杂和动态的环境，使其非常适合机器人、自动驾驶汽车和游戏等任务。
灵活性：RL可以应用于从简单到非常复杂的各种问题。它可用于监督和无监督学习，并且可以在在线和离线设置中使用。
处理不确定性：RL 特别适合涉及不确定性的任务，例如在动态和不可预测的环境中做出决策。
连续动作空间：RL可以处理连续动作空间，使其非常适合模拟中的机器人控制和连续控制等任务。
可扩展性：RL可以扩展以解决非常大和复杂的问题，例如控制无人机机队或玩复杂的视频游戏。
实时决策：RL可用于做出实时决策，这对于机器人和自动驾驶汽车等需要快速准确地做出决策的任务非常重要。

总体而言，RL是解决各种问题的强大工具，可用于许多不同的应用。如果您正在寻找一种灵活、强大且多功能的机器学习技术，那么 RL 可能是您的正确选择。

如果你问我，强化学习是模拟人脑最相似的机制。不要害怕尝试。这是未来。

迁移到强化学习的 6 个理由

一、说明

二、关于强化学习的介绍

三、强化学习（RL）和监督学习

四、为什么要迁移到强化学习

猜你喜欢

迁移到强化学习的 6 个理由

一、说明

二、关于强化学习的介绍

三、 强化学习（RL）和监督学习

四、为什么要迁移到强化学习

猜你喜欢

三、强化学习（RL）和监督学习