强化学习理论-知识总结(二)
编程语言
2023-06-18 19:35:24
阅读次数: 0
强化学习理论-知识总结
- 强化学习中状态价值函数和动作价值函数的理解:
https://blog.csdn.net/qq_41816368/article/details/125659951
- 策略梯度主要有两个问题,第一是优化策略依赖于样本,如果样本不均匀方差大,则影响效果,第二是依靠轮次奖励来优化动作的概率(即策略),不那么准确,因为有些奖励大的动作如果没有被采样到,那就没有被优化到了。
- AC算法:
https://blog.csdn.net/qq_43838114/article/details/127257760
https://blog.csdn.net/syc1220/article/details/106426792/
- 熵正则化和熵最小化:
https://blog.csdn.net/u012420553/article/details/100997590
- 正则化为什么能防止过拟合:
https://blog.csdn.net/qq_37344125/article/details/104326946
- DQN:
DQN(Deep Q Network)及其代码实现
深度强化学习——DQN算法原理
转载自blog.csdn.net/weixin_39735688/article/details/131256834