BP算法

神经元模型

仿照生物的神经元模型，神经元接收到来自n个其他神经元的输入信号，这些输入信号带有犬只连接，神经元接收到的总输入值与神经元的阈值进行比较，然后通过激活函数产生神经元的输出。
如下图所示：

输入为[x_1,x_2,x_3,…,x_n]
输出为 $y=f(\sum_{i=1}^Nw_ix_i-\theta)$

其中典型的激活函数有四种sigmod, softmax, tanh, relu。现在的深度学习里面用的激活函数一般是Relu.具体总结可以看我上一篇博客激活函数的选择。

感知机模型

感知机被视为最简单形式的前馈神经网络，是一种二元线性分类器，是神经网络和支持向量机的基础。感知机由两层神经元组成，输入层接受并处理外界信息，然后传递给输出层。如图所示：

其中 $x_1$ , $x_2$ 表示的是输入， $y$ 表示的是输出, $\theta$ 是阈值， $w_1$ , $w_2$ 表示的是权值。所以有：

y = f (w_{1} x_{1} + w_{2} x_{2} - θ)

$y=f(w_1x_1+w_2x_2-\theta)$

一般的，对于给定训练数据集，权值 $w_i(i=1,2,...,n)$ 以及阈值 $\theta$ 可通过学习得到。感知机的学习规则非常简单，对于训练样例 $(x,y)$ ，若当前感知机的输出为 $\hat y$ ，感知机的权值将这样调整：

w_{i} \leftarrow w_{i} + △ w_{i}

$w_i\leftarrow w_i+\triangle w_i$

△ w_{i} = η (y - \hat{y}) x_{i}

$\triangle w_i=\eta(y-\hat y)x_i$

其中 $\eta\in(0,1)$ 称为学习率，其中可以出如果对于样例 $(x,y)$ 预测正确，即 $\hat y=y$ ,则感知机不会发生变化，否则根据错误程度进行调整。需要注意的是，感知机只有输出层有激活函数处理，其学习能力非常有限。

对于包含隐含层的神经网络，就可以成为多层网络。

现在来看看BP算法。
对于给定数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，其中 $x_i\in R^d,y_i\in R^l$ 。

一些变量的解释：

$v_{ih}$ 表示的是输出层第 $i$ 个神经元与隐含层第 $h$ 个神经元的连接权值
$w_{hj}$ 表示的是隐含层第 $h$ 个神经元与输出层第 $j$ 个神经元的连接权值
$\alpha_h=\sum_{i=1}^dv_{ih}x_i$ 表示为隐含层第 $h$ 个神经元的输入
$\beta_j=\sum_{h=1}^qw_{hj}b_ h$ 表示的是输出层第 $j$ 个神经元的输入
$b_h$ 表示隐含层第 $h$ 个神经元的输出

下图为一个拥有 $d$ 个输入神经元，l个输出神经元和q个隐含神经元的多层前馈神经网络。

对于训练样例 $(x_k,y_k)$ ，假定神经网络的的输出为 $\hat y_k=(\hat y_1^k,\hat y_2^k,...,\hat y_l^k)$ ，所以有：

{\hat{y}}_{j}^{k} = f (β_{j} - θ_{j})

$\hat y_j^k=f(\beta_j-\theta_j)$

网络的误差为

E_{k} = \frac{1}{2} \sum_{j = 1}^{l} ({\hat{y}}_{j}^{k} - y_{j}^{k})^{2}

$E_k=\frac{1}{2}\sum_{j=1}^l(\hat y_j^k-y_j^k)^2$

任意参数的更新估计式为

v \leftarrow v + △ v

$v\leftarrow v+\triangle v$

下面以隐含层到输出层的连接权 $w_{hj}$ 来进行推导

BP算法基于梯度下降的策略，以目标的负梯度方向对参数进行调整，对于误差 $E_k$ 和给定学习率 $\eta$ ，有：

△ w_{h j} = - η \frac{\partial E_{k}}{\partial w_{h j}}

$\triangle w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}}$

$w_{hj}$ 是先影响输出层第 $j$ 个神经元，然后再进一步影响输出 $\hat y_j^k$ 的。所以有

\frac{\partial E_{k}}{\partial w_{h j}} = \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}} \frac{\partial β_{j}}{\partial w_{h j}}

$\frac{\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial \hat y_j^k}\frac{\partial \hat y_j^k}{\partial \beta_j}\frac{\partial \beta_j}{\partial w_{hj}}$

其中有

\frac{\partial β_{j}}{\partial w_{h j}} = b_{h}

$\frac{\partial \beta_j}{\partial w_{hj}}=b_h$

其中激活函数为sigmod函数所以有 $f(x)=\frac{1}{1+e^{-x}}$
对于sigmoid函数有

f^{'} (x) = f (x) (1 - f (x))

$f'(x)=f(x)(1-f(x))$

所以有

{\hat{y}}_{j}^{k} = f (β_{j} - θ)

$\hat y_j^k=f(\beta_j-\theta)$

因此令

g_{j} = - \frac{\partial E_{k}}{\partial {\hat{y}}_{j}^{k}} \frac{\partial {\hat{y}}_{j}^{k}}{\partial β_{j}}

$g_j=-\frac{\partial E_k}{\partial \hat y_j^k}\frac{\partial \hat y_j^k}{\partial \beta_j}$

= - ({\hat{y}}_{j}^{k} - y_{j}^{k}) {\hat{y}}_{j}^{k} (1 - {\hat{y}}_{j}^{k})

$=-(\hat y_j^k-y_j^k) \hat y_j^k(1-\hat y_j^k)$

综合得：

△ w = η g (j) b_{h}

$\triangle w=\eta g(j)b_h$

类似的能够得到

△ θ = - η g_{j}

$\triangle \theta =-\eta g_j$

△ v = η e_{h} g_{j}

$\triangle v=\eta e_hg_j$

△ γ = - η e_{h}

$\triangle\gamma=-\eta e_h$

其中 $e_h$ 表示的是隐含层的梯度。其实根据前面的结构图，我们能够得到公式 $b_h=f(\sum_{j=1}^dw_jhx_j-\gamma_h)$

所以有

e_{h} = - \frac{\partial E_{k}}{\partial b_{h}} \frac{\partial b_{h}}{\partial a_{h}}

$e_h=-\frac{\partial E_k}{\partial b_h}\frac{\partial b_h}{\partial a_h}$

= - \sum_{j = 1}^{l} \frac{\partial E_{k}}{\partial β_{j}} \frac{\partial β_{j}}{\partial b_{h}} f^{'} (a_{h} - γ_{h})

$= -\sum_{j=1}^l\frac{\partial E_k}{\partial \beta_j}\frac{\partial \beta_j}{\partial b_h}f'(a_h-\gamma_h)$

= - \sum_{j = 1}^{l} g_{j} w_{h j} b_{h} (1 - b_{h})

$=-\sum_{j=1}^lg_jw_{hj}b_h(1-b_h)$

上述流程图总结如下。

BP算法的目标是最小化训练集上的累计误差

E = \frac{1}{m} \sum_{k = 1}^{m} E_{k}

$E=\frac{1}{m}\sum_{k=1}^mE_k$

参考文献

1.什么是学习率，以及他是如何影响深度学习的?

2.机器学习，周志华

3.统计学习方法，李航

BP算法

神经元模型

感知机模型

BP算法

参考文献

猜你喜欢