神经网络概述

在这里插入图片描述

神经网络表示

在这里插入图片描述

计算神经网络的输出

在这里插入图片描述

m个样本的向量化

for loop

在这里插入图片描述

向量化

在这里插入图片描述

X：（nx,m）竖向指标代表神经网络的不同节点，横向指标代表不同的训练样本

向量化实现的解释

在这里插入图片描述

激活函数

sigmoid

在这里插入图片描述

除非用在二元分类的输出层，不然绝对不用，因为thah函数在任何场合都适用

tanh函数

在这里插入图片描述

sigmoid类函数的缺点是z特别大或特别小时斜率为0，会拖慢梯度下降的速度，使学习速率下降。

ReLu函数

在这里插入图片描述
默认使用
在实践中使用ReLu函数，神经网络的学习速率块，因为ReLu类函数没有sigmoid类函数在斜率接近于0时拖慢学习速率的特征。
ReLu由于NN有足够多的隐藏单元，使z>0.

Leaky ReLu函数

在这里插入图片描述

神经网络的一个特点是：在建立神经网络时，经常会有许多不同的选择比如隐藏单元数，激活函数，初始化权重等。

为什么需要非线性激活函数

事实证明：要让NN能够计算出有趣的函数，必须使用非线性激活函数

在这里插入图片描述

两个线性函数的组合本身就是线性函数，不能计算出有趣的函数；唯一可以用线性激活函数的地方是输出层，例如预测房价；除了这种情况，会在隐藏层用线性激活函数的，可能除了与压缩有关的一些特殊情况。

激活函数的导数

sigmoid

在这里插入图片描述
$g (z)= a = \frac{1}{1+exp(-z)}$

$g{'} (z)= a = \frac{e^{-z}}{(1+exp(-z))^2}=a*(1-a)$

tanh函数

在这里插入图片描述
$g (z)= tanh(z) = \frac{e^z-e^{-z}}{e^z+e^{-z}}$

$g{'} (z)= 1-(tanh(z))^2$

ReLu函数

在这里插入图片描述
$g (z) = max(0,z)$

$g{'} (z)= 1$ if z>0
$g{'} (z)= 0$ if z<0

Leaky ReLu函数

在这里插入图片描述
$g (z) = max(0.01z,z)$

$g{'} (z)= 1$ if z>0
$g{'} (z)= 0.01$ if z<0

神经网络的梯度下降

浅层神经网络

在这里插入图片描述

参数

w^[1](n^[1]*n^[0]),
b^[1](n^[1]*1),
w^[2](n^[2]*n^[1]),
b^[2]( n^[2] *1) 
n_x=n^[0],n^[1],n^[2]=1

代价函数

$J (w^{[1]},b^{[1]},w^{[2]},b^{[2]}) = \frac{1}{m}sum_{i=0}^n(y_{hat}-y)^2$

梯度下降

repeat{
			compute predict(yhat^[i],i=1,2,...,m)
			dw^[1] = dJ/dw^[1]     db^[1] = dJ/db^[1] ......
			w^[1] = w^[1]-alpha*dw^[1]
			b^[1] = w^[1]-alpha*db^[1]
			......
}

正向传播

在这里插入图片描述

反向传播

dZ^[2] = A^[2]-Y
dW^[2] = (1/m)dZ^[2](A^[1])^T
db^[2] = (1/m)np.sum(dZ^[2],axis=1(竖直相加)，keepdims = True(防止Python直接输出轶为1的数组))
aZ^[1] = (W^[1])^TdZ^[2]*(g^[1])'(Z^[1])##*逐元素相乘
dW^[1] = (1/m)dZ^[1](X)^T
db^[2] = (1/m)np.sum(dZ^[1],axis=1(竖直相加)，keepdims = True(防止Python直接输出轶为1的数组))

直观理解反向传播

Logistic回归

在这里插入图片描述
$L (a,y) = -yloga-(1-y)log(1-a)$

$a= \frac{1}{1+e^{-z}}$ $da= \frac{dL(a,y)}{da} =- \frac{y}{a}+\frac{1-y}{1-a}$ $dz= \frac{dL(a,y)}{dz} = \frac{dL(a,y)}{da} \frac{da}{dz} =a(1-a)(- \frac{y}{a}+\frac{1-y}{1-a})=a-y$ $dw=xdz$ $db=dz$

浅层神经网络

在这里插入图片描述

$dz^{[2]}= \frac{dL(a,y)}{dz^{[2]}} = \frac{dL(a,y)}{da^{[2]}} \frac{da^{[2]}}{dz^{[2]}} =a^{[2]}(1-a^{[2]})(- \frac{y}{a^{[2]}}+\frac{1-y}{1-a^{[2]}})=a^{[2]}-y$ $dW^{[2]}=dz^{[2]}a^{[1]T}$ $db^{[2]}=dz^{[2]}$ $dz^{[1]}= \frac{dL}{dz^{[1]}} = \frac{dL}{da^{[2]}} \frac{da^{[2]}}{dz^{[2]}} \frac{dz^{2]}}{da^{[1]}} \frac{da^{1]}}{dz^{[1]}} =g^{[1]'}(z^{[1]})*(W^{[2]T}dz^{[2]})$ $dW^{[1]}=dz^{[1]}X^T}$ $db^{[1]}=dz^{[1]}$

矩阵运算维度一定要匹配

在这里插入图片描述

m个样本的梯度下降

在这里插入图片描述

随机初始化权重

NN中，若权重初始化为0，则无效

在这里插入图片描述

w1 = np.random.randn((2,2))*0.01
b1 = np.zeros((2,1))
w2 = np.random.randn((1,2))*0.01
b2 = np.zeros(1,1))

吴恩达神经网络与深度学习——浅层神经网络

吴恩达神经网络与深度学习——浅层神经网络

神经网络概述

神经网络表示

计算神经网络的输出

m个样本的向量化

for loop

向量化

向量化实现的解释

激活函数

sigmoid

tanh函数

ReLu函数

Leaky ReLu函数

为什么需要非线性激活函数

激活函数的导数

sigmoid

tanh函数

ReLu函数

Leaky ReLu函数

神经网络的梯度下降

浅层神经网络

参数

代价函数

梯度下降

正向传播

反向传播

直观理解反向传播

Logistic回归

浅层神经网络

m个样本的梯度下降

随机初始化权重

猜你喜欢