强化学习中马尔科夫问题的引入

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/weixin_43283397/article/details/102561939

强化学习的基本原理:
在这里插入图片描述
从强化学习的基本原理可以看出它与其他机器学习算法如监督学习和非监督学习的一些基本差别。 在监督学习和非监督学习中,数据是静态的、不需要与环境进行交互, 比如图像识别,只要给出足够的差异样本,将数据输入深度神经网络中进行训练即可。然而, 强化学习的学习过程是动态的、不断交互的过程, 所需要的数据也是通过与环境不断交互产生的。所以,与监督学习和非监督学习相比,强化学习所涉及的对象更多,比如动作、环境、状态转移概率和回报函数等等。强化学习更像是人的学习过程:人类通过与周围环境交互,学会了走路,奔跑,劳动。 深度学习如图像识别和语音识别解决的是感知问题,强化学习解决的是决策问题。 人工智能的终极目的的通过感知进行智能决策。

通过不断的探索, 提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程,简称MDP。 其中的概念有马尔可夫性,马尔科夫过程,马尔科夫决策过程

猜你喜欢

转载自blog.csdn.net/weixin_43283397/article/details/102561939