正文前的两个问题:
一、强化学习与监督非监督学习的区别:
1、从策略更新依据的角度说(标签还是奖励):
监督学习,人知道什么是对的,并标签数据。 非监督学习,人知道什么是对的,没有完全标签数据。
强化学习,人不知道什么是对的,不知道要怎样做,但可以评价智能体与环境交互的好不好,设置奖励。
2、状态空间到策略空间的难度(神经网络的作用):
深度学习用大量的卷积神经网络处理理解feature map,建立基于特征理解的映射。
强化学习使用神经网络一般是做数据降维用的,使用的比较简单,对特征不敏感。
二、神经网络既可以做特征图理解,又可以做数据降维,本质是多项式回归?
1、回归分析用数学表达式来描述变量间的相关关系,通常是学习预测数据模型的第一个算法。
(相关区别于变量间确定性的函数关系。感性认识是曲线拟合点集。)
2、线性回归:拟合直线,,截距斜率误差项。
逻辑回归:因变量二元(真/假)。
多项式回归:自变量指数大于1。
多元回归:自变量数量大于等于2。
参考博文:https://blog.csdn.net/a52654/article/details/80841801 神经网络本质是多项式回归
3、神经网络的优势:
1.神经网络属于自适应能力很强的方法;
2.对于任意给定的函数,神经网络都能够无限逼近,这是因为在分类的整个过程中,神经网络通过调整权值不断地明确分类所依据的精确关系;
3.神经网络属于非线性模型,这使得它能够灵活地模拟现实世界中的数据之间的复杂关系。
一、Q-learning
伪代码:
图片参考:https://blog.csdn.net/yangshaokangrushi/article/details/79774031
运行步骤:
随机Q表
初始化状态
根据ε-贪婪策略和Q表选择行为、行动获得奖励、更新Q表(老估计Q+系数*差距)、更新状态、循环。
参考链接:https://www.jianshu.com/p/44ce8a55d820
特点:
1、复杂问题Q表庞大
2、off-policy,选动作时(决策、生成样本)用ε-贪婪策略,更新Q表时(计算下一状态预期收益)用贪婪策略(max估计)
二、DQN
运行步骤:
随机神经网络
初始化状态
根据贪婪策略和神经网络计算估计Q值选择行为、行动到达新位置获得奖励、更新神经网络(老神经网络系数+系数*差 距)、状态加一、循环。
特点:
1、使用状态和动作作为神经网络的输入、估计动作的Q值
2、
三、Sarsa
伪代码:
运行步骤:
随机Q表
初始化状态、根据贪婪策略和Q表选择行为
行动获得奖励、根据贪婪策略和Q表选择下一步行为,更新Q表(老估计Q+系数*差距)、更新状态动作、循环。
特点:
1、on-policy,选动作时用ε-贪婪策略,更新Q表时(用当前策略估计下一步收益)用ε-贪婪策略