【转载】Sim2Real问题[2]

其他 2020-03-17 09:27:16 阅读次数: 0

原文链接
原创 Cong Wang
2月5日
微信公众号：robot_learning123

OpenAI 2017年有一个blog Better Exploration with Parameter Noise[1] (对应paper[2]), 介绍在RL中添加parameter noise的问题, 虽然并没有说sim2real, 但是和sim2real过程有相似之处. 正如上一篇Sim2Real问题[1] 中列出的各种动力学参数, 我们在很多地方都可以考虑加一些noise, 以提高训练策略的鲁棒性和适应性.

Parameter Noise

深度学习中添加一些noise来提高训练效果并不少见, 为了提高RL的泛化能力, 之前的做法有在policy的输出端action增加noise的, 而OpenAI的这篇文章分析了在神经网络的参数上直接增加noise, 但是仍然通过输出的action来衡量其效果.左: action space noise; 右: parameter space noise.
这里面涉及到三个问题:

神经网络的不同层对扰动有不同的敏感度
策略权重的敏感度可能随着训练的进行而发生变化, 这使得预测行为更加困难
选择正确的noise scale是很困难的, 因为直观上难以了解参数噪声对策略训练的影响程度

对于第一个问题, 作者使用layer normalization[3] 来处理, 确保受扰动层的输出仍然具有相同的分布.

第二和三个问题, 通过一种自适应机制来调整参数空间扰动的大小. 它通过测量动作空间扰动的影响来判断动作空间噪声水平是大于还是小于预定目标. 这个技巧使得我们可以把选择noise scale的问题转换到动作空间, 直观上也比参数空间更容易理解. 下图为parameter noise和action noise比较.
在这里插入图片描述

Code

OpenAI Baseline[4]中实现了三种noise的形式, 用在了DDPG算法中, 感兴趣的可以看看具体实现与应用:

AdaptiveParamNoiseSpec
NormalActionNoise
OrnsteinUhlenbeckActionNoise

参考

[1] https://openai.com/blog/better-exploration-with-parameter-noise/

[2] https://arxiv.org/abs/1706.01905

[3] https://arxiv.org/abs/1607.06450

[4] https://github.com/openai/baselines/blob/master/baselines/ddpg/noise.py

方小汪

发布了58 篇原创文章 · 获赞 7 · 访问量 6124

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_42828571/article/details/104382761

【转载】Sim2Real问题[2]

【转载】Sim2Real问题[3]

【转载】Sim2Real问题[1]

SIM PICS 2

i2SIM隐私政策

ORB-SLAM2_sim3求解

笔记：2 Day + Real Application Clusters Guide

sim2插卡不起网并且modem reset ，sim1正常

18-SIM数据交互之-C2

Perl语言学习（2）- gen_ref_sim_log

抄袭与转载之转载（2）

FC Getafe - Real Madrid 2:3 zil take Kaka at comeback. More on Real "Bastards" M

struts 2标签 <s:textfield> 样式问题(转载)

转载篇 -2e31-1储存声明问题

vue遇见的问题（2）---imported multiple times（转载）

如何转载博客2

python学习2（转载）

转载2——均摊分析

博文转载2

Emulator(2)Choose and Configure AVD and Access Real Device

OpenCV的Sample分析：real_time_tracking(2)

uniform_int_distribution和uniform_real_distribution 2

struts2系列-Real-BUUCTF平台

BUUCTF：[BJDCTF 2nd]Real_EasyBaBa

SIM卡问题排查

ORB_SLAM之error: ‘Sim3’ in namespace ‘g2o’ does not name a type简单暴力解决问题

Ubuntu18.04 安装Sophus并配置/[解决问题]so2.cpp：error: lvalue required as left…unit_complex_.real() = 1/0

完成端口(IOCP)详解[2/2](转载)

Real-time Object Detection with YOLO, YOLOv2 and now YOLOv3 - YOLOv2

【转载】元类简介2

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)