推导中用到了markov性。
强化学习:手推累积奖赏
猜你喜欢
转载自blog.csdn.net/qq_44065334/article/details/113446930
今日推荐
周排行