一句话交待强化学习在做什么

正文前的两个问题：

一、强化学习与监督非监督学习的区别：

1、从策略更新依据的角度说（标签还是奖励）：

监督学习，人知道什么是对的，并标签数据。非监督学习，人知道什么是对的，没有完全标签数据。

强化学习，人不知道什么是对的，不知道要怎样做，但可以评价智能体与环境交互的好不好，设置奖励。

2、状态空间到策略空间的难度（神经网络的作用）：

深度学习用大量的卷积神经网络处理理解feature map，建立基于特征理解的映射。

强化学习使用神经网络一般是做数据降维用的，使用的比较简单，对特征不敏感。

二、神经网络既可以做特征图理解，又可以做数据降维，本质是多项式回归？

1、回归分析用数学表达式来描述变量间的相关关系，通常是学习预测数据模型的第一个算法。

（相关区别于变量间确定性的函数关系。感性认识是曲线拟合点集。）

2、线性回归：拟合直线， $Y=a+b\cdot X+e$ ，截距斜率误差项。

逻辑回归：因变量二元（真/假）。

多项式回归：自变量指数大于1。

多元回归：自变量数量大于等于2。

参考博文：https://blog.csdn.net/a52654/article/details/80841801 神经网络本质是多项式回归

3、神经网络的优势：

1.神经网络属于自适应能力很强的方法；

2.对于任意给定的函数，神经网络都能够无限逼近，这是因为在分类的整个过程中，神经网络通过调整权值不断地明确分类所依据的精确关系；

3.神经网络属于非线性模型，这使得它能够灵活地模拟现实世界中的数据之间的复杂关系。