Learning to Design Games Strategic Environments in Reinforcement Learning（部分翻译）

摘要

在典型的强化学习（reinforcement learning ，RL）中，（通常是）假设环境给定，并且学习的目标是为代理agent通过与环境的交互采取行动确定最优策略。在本篇论文中，我们拓展这种设置，通过考虑环境未给定，但却是可控的以及可学习的（只要）通过它与代理agent的实时交互。这个扩展是受现实世界中的环境设计场景的启发，包括游戏设计、购物空间设计和交通信号灯设计。理论上来说，我们发现了一个关于该代理环境的双重马尔科夫决策过程（MDP），并导出了一个优化环境化参数的策略梯度解。此外，不连续环境由提出的通用生成框架来处理。我们在迷宫游戏设计任务上的实验表明了该方法的有效性。针对各种代理设置生成各种具有挑战性迷宫的算法。

简介

强化学习(RL)通常涉及一个代理(或多个代理)采取行动并从环境中获得奖励的场景，而学习的目标就是为代理找到一个最优的策略来最大化与环境交互的累计奖励。（一个）成功的应用，举些许例子，包括了玩游戏，拥塞调度，规范的广告投放。

在大多数的RL方法中，比如SARSA以及Q-learning中，在学习代理的最优策略之前，环境的模型并不一定是先验已知的。或者，基于模型的方法，例如DYNA以及优先级扫描，要求在学习最优策略的同时搭建环境模型。然而，不管怎样，环境是肯定可以得到的，并且大多数是静止的或非静止的，而没有目的性的对照。

在本篇论文中，我们考虑环境的策略性以及可控性来拓展标准的RL设置。我们目的是通过与一个可学习的agent或者多agent的交互来设计环境。这可以有许多潜在的应用，从设计出一个带有期望迎合现有玩家学习状况的难度水平的一个游戏（环境），又或者是设计一个购物空间来驱使顾客去购物或者是长久地浏览以此来控制拥塞信号。一般来说，我们假设并且公式化与智能代理/人类进行交互的环境设计问题。我们考虑通过机器学习来设计这些环境来释放人类劳动力并且提升社会效率。与深入研究图像设计/生成问题相比，环境设计问题新在这几个方面：（i）没有基础真值样本；（ii）生成的样本可以是不连续的；（iii）样本的估计通过学习智能代理来实现。

我们的公式通过关于环境模型以及控制来拓展RL的配置。特别是在一些对抗的例子中，一方面，代理目标是最大化（它的）累计奖励；另一方面，环境尝试去最小化代理给定的最优策略的奖励。这（种做法）有效地在环境以及代理间创建了一个极小极大化博弈。给定代理执行环境的MDP，我们理论上能找到关于该环境的一个对偶MDP，即关于该代理的当前状态以及所采取的行动。解决对偶MDP能够获得一个策略梯度解来优化参数环境来达到它的目的。当环境参数不连续的时候，我们假设一个生成模型框架来最优化参数环境，该环境克服了环境空间的限制。我们在迷宫游戏生成任务上的实验表明，在不同环境下针对不同类型的代理生成不同且具有挑战性的迷宫是有效的。我们证明了我们的算法能够成功地发现代理的弱点，并与之对抗，从而生成有目的的环境。本文的主要贡献有三个方面：（i）提出了具有实际应用潜力的新型环境设计问题；（ii）将问题归结为连续情形下的策略优化问题，提出了不连续情形下的生成框架；（iii）我们将我们的方法应用到迷宫游戏设计任务中，通过生成特殊迷宫来显示它们的有效性。

JohnLanbow

发布了34 篇原创文章 · 获赞 10 · 访问量 1万+

私信关注

Learning to Design Games Strategic Environments in Reinforcement Learning（部分翻译）

猜你喜欢