得到各种状态下采取各个动作的reward后可以建立通过动作状态函数建立Q表,Q表中的值意思是在当前状态下如果采取某个动作,然后一直按照当前策略执行到terminal状态的回报
强化学习&蒙特卡洛3 | Q表
猜你喜欢
转载自blog.csdn.net/weixin_43236007/article/details/114437047
今日推荐
周排行