numpy实现神经网络系列
工程地址:https://github.com/yizt/numpy_neuron_network
基础知识
0_1-全连接层、损失函数的反向传播
0_2_1-卷积层的反向传播-单通道、无padding、步长1
0_2_2-卷积层的反向传播-多通道、无padding、步长1
0_2_3-卷积层的反向传播-多通道、无padding、步长不为1
0_2_4-卷积层的反向传播-多通道、有padding、步长不为1
0_2_5-池化层的反向传播-MaxPooling、AveragePooling、GlobalAveragePooling、GlobalMaxPooling
0_3-激活函数的反向传播-ReLU、LeakyReLU、PReLU、ELU、SELU
0_4-优化方法-SGD、AdaGrad、RMSProp、Adadelta、Adam
DNN练习
1_1_1-全连接神经网络做线性回归
1_1_2-全连接神经网络做mnist手写数字识别
CNN练习
2_1-numpy卷积层实现
2_2-numpy池化层实现
2_3-numpy-cnn-mnist手写数字识别
本文目录
本文下载地址:0_2_2-卷积层的反向传播-多通道、无padding、步长1
依赖知识
a) 熟悉全连接层、损失函数的反向传播
b) 熟悉卷积层的反向传播-单通道、无padding、步长1
c) 熟悉以上两点的依赖知识
约定说明
a)
l
代表网络的第
l
层,
zl
代表第
l
层卷积,
zld,i,j
代表第
l
层卷积第
d
通道
(i,j)
位置的值;
zl
的通道数为
Cl
, 高度和宽度分别为
Hl,W^l
(
避免与权重相同
)
b)
Wl−1,bl−1
代表连接第
l−1
层和第
l
层的卷积核权重和偏置; 卷积核的维度为
(kl−11,kl−12)
。
c) 记损失函数L关于第
l
层卷积的输出
zl
的偏导为
δl=∂L∂zl (3)
前向传播
根据以上约定,卷积核权重
Wl−1∈Rkl−11×kl−12×Cl−1×Cl
,偏置
bl−1∈RCl
,每个输出通道一个偏置。
则有第
l
层卷积层,第
d
个通道输出为:
zld,i,j=∑c=1Cl−1∑m=0kl−11−1∑n=0kl−12−1Wl−1m,n,c,dzl−1c,i+m,j+n+bl−1i∈[0,Hl−1],j∈[0,W^l−1](4)
其中:
Hl=Hl−1−kl−11+1; W^l=W^l−1−kl−12+1
; 注意前后通道直接相当于全连接,即前后两个卷积层直接所有通道都互相连接。
反向传播
权重梯度
a) 首先来看损失函数
L
关于第
l−1
层权重
Wl−1
和偏置
bl−1
的梯度:
∂L∂Wl−1m,n,c,d=∑i∑j∂L∂zld,i,j∗∂zld,i,j∂Wl−1m,n,c,d=∑i∑jδld,i,j∗∂(∑Cl−1c=1∑kl−11−1m=0∑kl−12−1n=0Wl−1m,n,c,dzl−1c,i+m,j+n+bl−1)∂Wl−1m,n,c,d=∑i∑jδld,i,j∗zl−1c,i+m,j+n//l层的d通道每个神经元都有梯度传给权重Wl−1m,n,c,d(1)(2)(5)
对比公式(5)和
单通道中公式(4),可以发现,损失函数
L
关于第
l−1
层权重
Wl−1:,:c,d
梯度就是以
δld
为卷积核在
zl−1c
上做卷积的结果(这里没有偏置项),单通道对单通道的卷积。
b) 损失函数
L
关于第
l−1
层偏置
bl−1
的梯度同
∂L∂bl−1d=∑i∑jδld,i,j(6)
l-1层梯度
由单通道 可知第
l
层的第
d
个通道传给第
l−1
层
c
通道的梯度为:
∑m=0kl−11−1∑n=0kl−12−1rot180∘Wl−1m,n,c,dpδld,i+m,j+n(7)
而l层的每个通道都有梯度返回给第l-1层的第c个通道,因此有:
δl−1c,i,j=∑d=1Cl∑m=0kl−11−1∑n=0kl−12−1rot180∘Wl−1m,n,c,dpδld,i+m,j+n(8)
其中:
pδld,i,j={δld,i−kl−11+1,j−kl−12+10i∈[kl−11−1,Hl+kl−11−2]且j∈[kl−12−1,W^l+kl−12−2]i,j其它情况(12)