学习DDPG算法倒立摆程序遇到的函数

1.np.random.seed点击打开链接

2.tf.set_random_seed(1)点击打开链接

应该和1类似,产生图级的随机序列。那1就是产生操作级的随机序列吧。

3.dict(name = 'soft', tau = 0.01) python中的结构形式,create empty dictionary

4.tf.variable_scope点击打开链接点击打开链接

用来管理相同环境中的同名变量。

5.tf.get_collection点击打开链接 点击打开链接 从一个范围中提取变量。

6.tf.GraphKeys.GLOBAL_VARIABLES点击打开链接 与11相关,如果11中的参数可以train,会赋到这个变量里面。

7.tf.assign点击打开链接

8.python中zip函数点击打开链接 打包元组

9.tf.random_normal_initializer()点击打开链接

10.tf.constant_initializer()点击打开链接

11.tf.layers.dense()添加全连接层点击打开链接

第二个元素表示输出节点的个数,函数的返回值表示在每个神经节点计算的数据值。

12.tf.nn.relu点击打开链接 矩阵中每行的非最大值置0

13.所有激活函数点击打开链接

14.tf.multiply点击打开链接

15.加减乘除、取余、取整点击打开链接

16.tf.gradients点击打开链接,grad_ys给计算的倒数加权重

17.tf.squared_difference点击打开链接,返回平方误差

18.tf.reduce_mean点击打开链接,返回平均值

19.tf.train.AdamOptimizer点击打开链接,一种优化算法, 点击打开链接

20.tf.get_variable点击打开链接

21.np.hstack点击打开链接,水平堆叠数组

22.assert函数点击打开链接,判断异常

23.np.random.choice点击打开链接

24.关于gym,gym是google已经建好的模拟环境,安装了这个模块,可以直接调用。点击打开链接

    env=gym.make(ENV_NAME)定义使用gym库中的那一种环境

    env=env.unwrapped不做这个会有很多限制

    env.seed(1)随机种子?

    env.observation_space环境中可用state的observation

    env.action_space环境中可用的action

    env.action_space.high动作的最高值

    env.reset重置环境

    env.render刷新环境

    env.step(a)环境的模型应该在库里

25.tf.name_scope点击打开链接

26.tf.placeholder点击打开链接 点击打开链接与feed_dict成对出现

27.tf.Session点击打开链接

28.tf.global_variables_initializer()点击打开链接

29.tf.summary.FileWriter点击打开链接指定文件保存一个图

30.time.time点击打开链接 返回当前时间的时间戳

31.np.clip点击打开链接 截取

32.np.random.normal 点击打开链接 高斯分布

33.with tf.control_dependencies点击打开链接

34.tf.losses.mean_squared_error点击打开链接 计算均方误差

源代码:点击打开链接



猜你喜欢

转载自blog.csdn.net/AndesStay/article/details/81004375