通过无模型多代理强化学习掌握Stratego游戏 - 代码天地

通过无模型多代理强化学习掌握Stratego游戏

业界资讯 2023-07-02 00:46:49 阅读次数: 0

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段，Stratego对人工智能（AI）构成了挑战。以前的计算机程序充其量只在业余水平上运行。

Perolat等人引入了一种无模型的多代理强化学习方法，并表明它可以在Stratego中实现人类专家级绩效。目前的工作不仅增加了越来越多的游戏，人工智能系统可以玩得和人类一样好，甚至比人类更好，而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用，这些问题的特点是信息不完善，因此目前无法解决。

我们介绍了DeepNash，一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。Stratego是人工智能（AI）尚未掌握的为数不多的标志性棋盘游戏之一。

这是一个以双重挑战为特征的游戏：它需要像国际象棋一样进行长期的战略思维，但它也需要像扑克一样处理不完美的信息。

支撑DeepNash的技术使用一种游戏理论、无模型的深度强化学习方法，无需搜索，通过从头开始的自我游戏来学习掌握Stratego。DeepNash击败了Stratego中现有的最先进的人工智能方法，并在Gravon游戏平台上实现了年初至今（2022年）和历史前三名，与人类专家玩家竞争。

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段，Stratego对人工智能（AI）构成了挑战。以前的计算机程序充其量只在业余水平上运行。

Perolat等人引入了一种无模型的多代理强化学习方法，并表明它可以在Stratego中实现人类专家级绩效。目前的工作不仅增加了越来越多的游戏，人工智能系统可以玩得和人类一样好，甚至比人类更好，而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用，这些问题的特点是信息不完善，因此目前无法解决。

我们介绍了DeepNash，一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。Stratego是人工智能（AI）尚未掌握的为数不多的标志性棋盘游戏之一。

这是一个以双重挑战为特征的游戏：它需要像国际象棋一样进行长期的战略思维，但它也需要像扑克一样处理不完美的信息。

支撑DeepNash的技术使用一种游戏理论、无模型的深度强化学习方法，无需搜索，通过从头开始的自我游戏来学习掌握Stratego。DeepNash击败了Stratego中现有的最先进的人工智能方法，并在Gravon游戏平台上实现了年初至今（2022年）和历史前三名，与人类专家玩家竞争。

猜你喜欢

转载自blog.csdn.net/elinkenshujuxian/article/details/131477098

通过无模型多代理强化学习掌握Stratego游戏

强化学习中的无模型控制

强化学习中的无模型预测

强化学习(四) - 无模型学习(MC、TDL)

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

强化学习模型

【强化学习】打游戏

基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习

【强化学习笔记】5.无模型的强化学习方法-时间差分算法

强化学习(五) - 无模型学习(Sarsa、Q-Learning)

强化学习中的无模型基于值函数的 Q-Learning 和 Sarsa 学习

【RL】我的强化学习代理

强化学习系列7：无模型的蒙特卡洛法

2019/5/14 基于无模型的强化学习方法

强化学习笔记（5）—— 无模型（model-free）control问题

强化学习笔记（4）—— 无模型（model-free）prediction问题（α-MC方法、TD方法）

[论文]基于强化学习的无模型水下机器人深度控制

【学习】深度强化学习、模型压缩

多智能体强化学习

多智能体强化学习入门

用强化学习制作游戏AI

强化学习车杆游戏

强化学习井字棋游戏

强化学习——格子游戏问题

项目分享 | 如何通过昇思MindSpore实现强化学习玩游戏

《强化学习周刊》第25期：DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统

《强化学习》模型无关方法

强化学习（一）模型基础

基于世界模型的深度强化学习

强化学习的N臂匪徒模型

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)