01.神经网络和深度学习 W4.深层神经网络

参考:
吴恩达视频课
深度学习笔记

1. 深层神经网络

在这里插入图片描述

有的时候只有非常深的神经网络才能发挥作用。

但是无法提前预知多少层的神经网络合适,可以先尝试逻辑回归,尝试一层,然后两层隐含层,然后把隐含层的数量当作超参数,然后交叉验证

2. 前向传播和反向传播

前向传播

  • 输入: a [ l 1 ] a^{[l-1]}
  • 输出: a [ l ] a^{[l]}
  • 缓存: z [ l ] , w [ l ] , b [ l ] z^{[l]},w^{[l]},b^{[l]}

z [ l ] = W [ l ] a [ l 1 ] + b [ l ] z^{[l]}=W^{[l]} \cdot a^{[l-1]}+b^{[l]}
a [ l ] = g [ l ] ( z [ l ] ) a^{[l]}=g^{[l]}\left(z^{[l]}\right)

向量化写法
z [ l ] = W [ l ] A [ l 1 ] + b [ l ] z^{[l]}=W^{[l]} \cdot A^{[l-1]}+b^{[l]}
A [ l ] = g [ l ] ( Z [ l ] ) A^{[l]}=g^{[l]}\left(Z^{[l]}\right)

后向传播

  • 输入: d a [ l ] da^{[l]}
  • 输出: d a [ l 1 ] d w [ l ] d b [ l ] da^{[l-1]},dw^{[l]},db^{[l]}

d z [ l ] = d a [ l ] g [ l ] ( z [ l ] ) d w [ l ] = d z [ l ] a [ l 1 ] d b [ l ] = d z [ l ] d a [ l 1 ] = w [ l ] T d z [ l ] d z [ l ] = w [ l + 1 ] T d z [ l + 1 ] g [ l ] ( z [ l ] ) \begin{array}{l}d z^{[l]}=d a^{[l]} * g^{[l]^{\prime}}\left(z^{[l]}\right) \\ d w^{[l]}=d z^{[l]} \cdot a^{[l-1]} \\ d b^{[l]}=d z^{[l]} \\ d a^{[l-1]}=w^{[l] T} \cdot d z^{[l]} \\ d z^{[l]}=w^{[l+1] T} d z^{[l+1]} \cdot g^{[l]^{\prime}}\left(z^{[l]}\right)\end{array}

向量化写法
d Z [ l ] = d A [ l ] g [ l ] ( Z [ l ] ) d W [ l ] = 1 m d Z [ l ] A [ l 1 ] T d b [ l ] = 1 m n p sum ( d z [ l ] , axis = 1 ,  keepdims  = True ) d A [ l 1 ] = W [ l ] T d Z [ l ] \begin{array}{l}d Z^{[l]}=d A^{[l]} * g^{[l]^{\prime}}\left(Z^{[l]}\right) \\ d W^{[l]}=\frac{1}{m} d Z^{[l]} \cdot A^{[l-1] T} \\ d b^{[l]}=\frac{1}{m} n p \cdot \operatorname{sum}\left(d z^{[l]}, \text {axis}=1, \text { keepdims }=\text {True}\right) \\ d A^{[l-1]}=W^{[l] T} \cdot d Z^{[l]}\end{array}

在这里插入图片描述

3. 核对矩阵维数

矩阵维数

4. 参数、超参数

参数有 W, b

超参数:

  • 学习率
  • 梯度下降 迭代次数
  • 隐藏层数量
  • 隐藏层单元数量
  • 激活函数选择
  • momentum
  • mini batch size
  • 正则化参数

多种组合,各种尝试,选择效果最好的参数组合,第二门课会介绍

猜你喜欢

转载自blog.csdn.net/qq_21201267/article/details/108250090