强化学习理论-知识总结(二)

强化学习理论-知识总结

  1. 强化学习中状态价值函数和动作价值函数的理解:
    https://blog.csdn.net/qq_41816368/article/details/125659951
  2. 策略梯度主要有两个问题,第一是优化策略依赖于样本,如果样本不均匀方差大,则影响效果,第二是依靠轮次奖励来优化动作的概率(即策略),不那么准确,因为有些奖励大的动作如果没有被采样到,那就没有被优化到了。
  3. AC算法:
    https://blog.csdn.net/qq_43838114/article/details/127257760
    https://blog.csdn.net/syc1220/article/details/106426792/
  4. 熵正则化和熵最小化:
    https://blog.csdn.net/u012420553/article/details/100997590
  5. 正则化为什么能防止过拟合:
    https://blog.csdn.net/qq_37344125/article/details/104326946
  6. DQN:
    DQN(Deep Q Network)及其代码实现
    深度强化学习——DQN算法原理

猜你喜欢

转载自blog.csdn.net/weixin_39735688/article/details/131256834