吴恩达机器学习笔记2-神经网络

前向传播(Forward Propagation)

$a^{(1)}=x$
$a^{(2)}=g(\theta^{(1)}x)$
$a^{(3)}=g(\theta^{(2)}a^{(2)})$

反向传播(Backward Propagation)

梯度下降算法需要计算梯度，而梯度就是所有参数的偏导数。对于神经网络来说，BP算法是一种计算偏导数的利器。

符号解释

w_ij——权重
a_ij——权重处理后的输出，即w*x,i表示第i层，j表示第j个输出
g(x)——激励函数
C——最终的损失函数
y_k——实际的标签值

基本公式
$C=\frac{1}{2}\sum_k(y_k-t_k)^2$

$a_{ij}=\sum_{k=1}^Nw_{kj}(i-1)g[a_{(i-1)k}]$

$\delta^{k+1}:=\frac{\partial E}{\partial a_{(k+1)j}}$

算法过程

初始化权重w_ij
前向传播。计算每个节点的输出值
对输出层求
$δ_{k} = (y_{k} - t_{k}) \cdot g^{'} (a_{k})$ $\delta_k=(y_k-t_k)·g'(a_k)$
对隐藏层求
$δ^{k} = \sum_{j} δ^{k + 1} \cdot w_{i j} (k) * g^{'} (a_{(k + 1) j})$ $\delta^k=\sum_j\delta^{k+1}·w_{ij}(k)* g'(a_{(k+1)j})$
求梯度
$\frac{\partial C_{n}}{\partial w_{j i}} = δ_{j} \cdot g (a_{i})$ $\frac{\partial C_n}{\partial w_{ji}}=\delta_j·g(a_{i})$
更新权重
$w^{m + 1} = w^{m} + α \frac{\partial C}{\partial w}$ $w^{m+1}=w^m+\alpha\frac{\partial C}{\partial w}$

推导过程

最后一层的权重求导。总损失对权重求导等于先对线性组合求导，乘以线性组合对权重的求导。根据之前的符号设定换成delta，然后根据线性组合a的公式得出后面的导数。
$\frac{\partial C}{\partial w_{i j} (k)} = \frac{\partial C}{\partial a_{(k + 1) j}} \cdot \frac{\partial a_{(k + 1) j}}{\partial w_{i j} (k)}$ $\frac{\partial C}{\partial w_{ij}(k)}=\frac{\partial C}{\partial a_{(k+1)j}}·\frac{\partial a_{(k+1)j}}{\partial w_{ij}(k)}$
$= δ^{k + 1} \cdot g (a_{k j})$ $=\delta^{k+1}·g(a_{kj})$
隐藏层的求导。

\frac{\partial C}{\partial w_{l i} (k - 1)} = \frac{\partial C}{\partial a_{k i}} \cdot \frac{\partial a_{k i}}{\partial w_{l i} (k - 1)} = δ^{k} \cdot g (a_{(k - 1) j})

$\frac{\partial C}{\partial w_{li}(k-1)}=\frac{\partial C}{\partial a_{ki}}·\frac{{\partial a_{ki}}}{\partial w_{li}(k-1)}=\delta^{k}·g(a_{(k-1)j})$

= \sum_{j} \frac{\partial C}{\partial a_{(k + 1) j}} \cdot \frac{\partial a_{(k + 1) j}}{\partial g (a_{k i})} \cdot \frac{\partial g (a_{k i})}{\partial a_{k i}} \cdot \frac{\partial a_{k i}}{\partial w_{l i} (k - 1)}

$=\sum_j\frac{\partial C}{\partial a_{(k+1)j}}·\frac{\partial a_{(k+1)j}}{\partial g(a_{ki})}·\frac{\partial g(a_{ki})}{\partial a_{ki}}·\frac{\partial a_{ki}}{\partial w_{li}(k-1)}$

= \sum_{j} δ^{k + 1} \cdot w_{i j} (k) * g^{'} (a_{(k + 1) j}) \cdot g (a_{(k - 1) i})

$=\sum_j\delta^{k+1}·w_{ij}(k)* g'(a_{(k+1)j})·g(a_{(k-1)i})$

δ^{k} = \sum_{j} δ^{k + 1} \cdot w_{i j} (k) * g^{'} (a_{(k + 1) j})

$\delta^k=\sum_j\delta^{k+1}·w_{ij}(k) * g'(a_{(k+1)j})$

神经网络的归纳偏置

可以粗略地刻画为在数据点之间平滑插值