B站最强--强化学习基本概念入门(全)

概率论概念

随机变量

概念:一个取决于未知事件的变量,

  • 使用大写X来表示随机变量

如在抛硬币之前我是不知道硬币结果是什么,但是我知道事件的概率

  • 使用小写x来表示观测值,只是表示一个数,没有随机性,如下面观测到三次抛硬币的结果
    • x_1 = 0 \ x_2 =1 \ x_3 = 1 \

概率密度函数

probability Density Function,PDF

概念:意味着随机变量在某个确定的取值点附近的可能性

连续分布

如高斯分布这个连续分布

p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}exp({-\frac{x-\mu}{2\sigma^2}})

\mu为均值,σ为标准差。

横轴是随机变量X取值,纵轴是概率密度,曲线是高斯分布概率密度函数P(X),说明在原点附近概率取值比较大,在原理原点附近概率取值比较小。 

离散分布

离散随机变量X\in{1,3,7}

PDF:

p(1)=0.2, p(3) = 0.5, p(7)=0.3

性质

  • 随机变量X作用域定义为花体\mathcal{X}
  • 如果X是连续的变量分布,则可对概率密度函数做定积分,值为1。

\int_{\mathcal{X}}p(x)dx=1

  • 如果X是离散的变量分布,则可对p(x)做一个加和,值为1。

\sum_{x\in \mathcal{X}}p(x) = 1

期望

  • 对于作用域\mathcal{X}中的随机变量X
  • 对于连续分布,函数$$f(x)的期望为:

$$\mathbb{E}[f(x)]=\int_{\mathcal{X}}p(x) \cdot f(x) dx

  • 对于离散分布,函数$$f(x)的期望为:

$$\mathbb{E}[f(x)]=\sum_{x\in \mathcal{X}}p(x)\cdot f(x)

$$p(x)是概率密度函数

随机抽样

  • 假设有10个球,2红,5绿,3蓝,随机抽一个球,会抽到哪个球。
  • 在抽之前,抽到球的颜色就是个随机变量$$X,有三种可能取值红绿蓝。
  • 抽出一个球,是红色,这时候就有了一个观测值。
  • 上述过程就叫随机抽样

换一个说法

  • 箱子里有很多个球,也不知道有多少个
  • 做随机抽样,抽到红色球概率是0.2,绿色球概率是0.5,蓝色球概率是0.3。
  • 抽一个球,记录颜色,然后放回去摇匀,重复一百次,这样就有统计意义。

 

强化学习术语

state与action

假设在玩超级玛丽

状态state $$s可以表示为当前游戏这一帧的画面

观测到状态后可以做出相应动作action $$ a \in \{​{left, right, up} \}

这个例子中马里奥被称为agent,若在自动驾驶中,汽车就被称为agent。动作谁做的就被称为agent

猜你喜欢

转载自blog.csdn.net/weixin_42480337/article/details/127140300