OpenAI Multi-Agent Particle Environments (MPE) 介绍与使用

其他 2018-06-02 12:22:27 阅读次数: 0

OpenAI MPE&MADDPG 配置和运行

一、Multi-Agent Particle Environment（MPE）

1. 介绍

Multi-Agent Particle Environment（MPE）是由OpenAI开源的一款多智能体强化学习实验平台，以OpenAI的gym为基础，使用Python编写而成。它创造了一个简单的多智能体粒子世界，粒子们可以进行连续的观察和离散的动作。

实验效果

2. 安装配置

实验环境

Python 3.6.4
Windows 10
OpenAI gym 0.10.5
Numpy
Pyglet 1.2.0

配置步骤

cd至根目录下，执行pip install -e .安装环境。
执行pip uninstall pyglet卸载pyglet1.3.6
执行pip install pyglet==1.2.0安装pyglet1.2.0
运行程序python bin/interactive.py --scenario simple.py

3. Demo运行

环境说明

二、Multi-Agent Deep Deterministic Policy Gradient (MADDPG)

1. 介绍

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments提出的MADDPG算法（混合合作-竞争环境下的多智能体Actor-Critic）的代码。必须在Multi-Agent Particle Environments （MPE）的环境运行。

2. 安装配置

实验环境

Python 3.6.4
Windows 10
OpenAI gym 0.10.5
Numpy
Tensorflow
Pyglet 1.2.0

配置步骤

cd至根目录下，执行pip install -e .，安装环境。
安装multiagent-particle-envs,并确保将其添加到PYTHONPATH环境变量中。
cd至experiments目录下，运行程序python train.py --scenario simple

3. 命令参数说明

环境选项

--scenario: MPE中的环境 (默认: "simple")
--max-episode-len 环境的每个周期的长度 (默认: 25)
--num-episodes 训练周期总数 (默认: 60000)
--num-adversaries: 环境中的adversary数量 (默认: 0)
--good-policy: 环境中good policy算法(默认: "maddpg"; 选项: {"maddpg", "ddpg"})
--adv-policy: 环境中adversary policy算法(默认: "maddpg"; 选项: {"maddpg", "ddpg"})

核心训练参数

--lr: 学习速率 (默认: 1e-2)
--gamma: 损失因子(discount factor) (默认: 0.95)
--batch-size: Batch大小 (默认: 1024)
--num-units: 多层神经网络层数 (默认: 64)

保存

--exp-name: 实验的名称，用以保存结果。 (默认: None)
--save-dir: 保存训练结果和模型的位置 (默认: "/tmp/policy/")
--save-rate: 模型将会以这个周期频率进行保存 (默认: 1000)
--load-dir: 载入训练结果和模型的位置 (默认: "")

评估

--restore: 恢复在load-dir的训练结果, 并且继续训练 (默认: False)
--display: 展示训练结果, 但不继续训练 (默认: False)
--benchmark: 对训练结果进行基准评估, 保存结果到 benchmark-dir 文件夹 (默认: False)
--benchmark-iters: 执行基准评估的训练周期 (默认: 100000)
--benchmark-dir: 存放基准数据的目录 (默认: "./benchmark_files/")
--plots-dir: 存放训练曲线的目录 (默认: "./learning_curves/")

4. Demo运行

进行训练
python train.py --scenario simple_push --num-episodes 1000000 --exp-name exp1 --save-dir push_dir
训练结果可视化
python train.py --scenario simple_push --load-dir push_dir --display
继续训练
python train.py --scenario simple_push --load-dir push_dir --restore --num-episodes 80000

猜你喜欢

转载自www.cnblogs.com/Sanshibayuan/p/9118440.html

OpenAI Multi-Agent Particle Environments (MPE) 介绍与使用

OpenAI经典案例分享-1多智能体使用特定工具交互Multi-Agent Interaction-2机械手解决魔方Robot Hand

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 读书笔记

《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读

Particle designer 粒子工具属性介绍及使用

openai 介绍

Project 2: Multi-Agent Search

MyBatis总结(七)--environments属性介绍

particle.js库使用，颗粒效果

关于对vue-particle-effect-button的使用

COMA（二）：Counterfactual Multi-Agent Policy Gradients 论文讲解

openai的的API如何使用

MyBatis environments

openai

OpenAI开发系列（三）：OpenAI的大模型生态介绍

在ParaView中使用particle tracer filter进行粒子追踪

UGUI 上使用 Particle System 支持 Sorting Layer 排序渲染

粒子群优化算法（Particle Swarm Optimization）使用与实现方法

LangChain Agent 执行过程解析 OpenAI

CSE 390A, Spring 2014 Assignment 3: Multi-user Unix Environments

【论文笔记】Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

Multi-object navigation in real environments using hybrid policies 论文阅读

【EMSANet2022】Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments

使用 .NET 开始 OpenAI Completions

Langchain 使用 OpenAI 聊天模型

读书笔记15：VAIN:Attentional Multi-agent Predictive Modeling

An Unified Intelligence-Communication Model for Multi-Agent System——Part I

读书笔记 - A Survey on Sensor Networks from a Multi-Agent perspective

An Unified Intelligence-Communication Model for Multi-Agent System——Part II

An Unified Intelligence-Communication Model for Multi-Agent System——Part III

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)