吴恩达深度学习笔记五：卷积神经网络人脸识别和风格迁移部分

1、人脸识别

人脸验证（Face Verification）：输入图片和模板图片是否为同一人，一对一问题。
人脸识别（Face Recognition）：输入图片，检测是否为多个模板图片中的一个，一对多问题。

一般来说，人脸验证由于范围较小难度较小，而人脸识别需要进行一对多的比对难度较大准确率也较低。

One-Shot Learning： 由于人脸数据库的容量 K 并不固定，如果使用以前的分类方法，在全连接层后面进行softmax分类的话，一旦容量 K 变动，那么需要重新修改和训练模型，代价太大。因此需要一种方法通过卷积模型定义一个编码方式之后可以只进行一次训练，即可以获取输入图片的输入结果，对输入结果进行比较得出识别结果。

现在一般使用 相似函数（similarity function） 来比较两个图片的编码结果：其差异 d 小于某个阀值时认为相同，否则认为不同。

d (i m g 1, i m g 2) \leq τ \to 相 同 d (i m g 1, i m g 2) > τ \to 不 同

$d(img1, img2) \le \tau \to相同 \\ d(img1, img2) > \tau \to 不同$

Siamese Network： 确定比较方法之后，可以对编码结果进行直接比较。我们知道卷积过程实际上是提取图片特征的过程，全连接层可以看做图片特征的某种编码结果，因此直接使用全连接的神经元参数计算，而再不进行softmax等分类。网络结果如下。

这里写图片描述

得到图片 $x^{(1)} 和x^{(2)}$ 的编码（卷积）结果 $f(x^{(1)}) 和 f(x^{(1)})$ 后，其相似函数可以表述为编码结果差值的范数：

d (x^{(1)}, x^{(2)}) = | | f (x^{(1)}) - f (x^{(2)}) | |^{2}

$d(x^{(1)},x^{(2)}) = || f(x^{(1)}) - f(x^{(2)}) ||^2$
显示为同一个人时 d 值应该很小，不同是 d 应该较大。

Triplet Loss（三重损失函数）: 如果任选一张和其他图片进行比较，显然不相同的比例很大，此时模型错误认为不相同的代价太小，不利于模型的训练。因此一次训练引入三张图片：靶（Anchor）、正例图片（Positive）和反例图片（Negative）。
这里写图片描述

因为人脸相同时相似函数差值d 小，不同时差值d 大，因此：

d (A, P) - d (A, N) = | | f (A) - f (P) | |^{2} - | | f (A) - f (N) | |^{2} \leq 0

$d(A, P) - d(A,N) = || f(A) - f(P)||^2 - || f(A) - f(N) ||^2 \le 0$
然而上式当两个都为0时总成立，这不是我们希望看到的，引入边界(Margin)量:，

α

$\alpha$ ，有：

| | f (A) - f (P) | |^{2} - | | f (A) - f (N) | |^{2} + α \leq 0

$|| f(A) - f(P)||^2 - || f(A) - f(N) ||^2 + \alpha \le 0$

也就是说当人脸不相同时上式 >=0 , 可以将其作为惩罚因子，Triplet （有三个对象）损失函数为（max函数表示取其中最大值）：

L (A, P, N) = m a x (| | f (A) - f (P) | |^{2} - | | f (A) - f (N) | |^{2} + α, 0)

$L(A,P,N) = max(|| f(A) - f(P)||^2 - || f(A) - f(N) ||^2 + \alpha, 0)$

扩展得到 m 个样本的代价函数（cost function）：

J = \sum_{i = 1}^{m} L (A^{i}, P^{i}, N^{i})

$J = \sum_{i=1}^m L(A^i,P^i,N^i)$

然后即可以通过梯度下降训练神经网络。另外为了提高准确性需要给模型增加难度，例如不随机选取A,P,N三张图片，选择（A,P）相差较远（如换发型），而（A,N）相差较近的图片。

人脸验证（Verification）可以作为二分类问题处理，将两张图片输入同一个模型得到全连接层，然后对两个子全连接层进行计算得到二分类结果：相同或是不同。

这里写图片描述

2、神经风格迁移

神经风格迁移（Neural style transfer）的过程很好的体现了卷积网络的工作原理。在卷积得到的第一层特征图(Feature Map)中遍历找到使激活函数值最大（特征最明显?）的9x9块图像区域如下，其主要提取了一些形状和颜色特征：

这里写图片描述

下面是有浅层到深层的变化：

这里写图片描述

放大第五层可以发现，越深的层其检测出的特征越全代表性越强：

这里写图片描述

神经风格迁移生成的图片其内容分别来自内容图和风格图：

这里写图片描述

使用类似人脸识别Triplet Loss的思想，将内容代价函数（Content cost function）和风格代价函数（Style cost function）两个组合作为训练的依据, $\alpha, \beta$ 是调整权重的超参数：

J (G) = α \cdot J_{c o n t e n t} (C, G) + β \cdot J_{s t y l e} (S, G)

$J(G)=α⋅J_{content}(C,G)+β⋅J_{style}(S,G)$

由前面的卷积过程解释可以看出，每一层的输出 $a^l$ 都是原始数据的特征编码，同人脸识别一样，比较两个图片的编码 $a^l$ 可以得到其差异。并且由于随着 $l$ 的加深 $a^l$ 越能更全面具体的反映原图，因此，为了能够减少加入风格迁移引起的差异，一般使用中间层数的 $l$ ，内容代价函数为：

J_{c o n t e n t} (C, G) = \frac{1}{2} ‖ a^{[l]} (C) - a^{[l]} (G) ‖^{2}

$J_{content}(C,G) = \frac{1}{2} \| a^{[l]}(C)−a^{[l]}(G) \|^2$

卷积神经网络的一个重要特征是参数共享，也就是说一次卷积时按一次特定的规则对整个图片提取特征，不同的通道是不同方式提取特征的结果，如果一个特征在多个通道中出现且值较大，其所代表的风格（形状（扭曲）和颜色等）也就越明显。反过来，风格明显的区域卷积之后不同通道 $a^l$ 中的对应的激活值都比较大，因此可以是以乘积来表示两个通道间的特征相关性，获取图片的风格矩阵：

G^{[l]} k k' = \sum_{i = 1}^{n_{H}^{[l]}} \sum_{j = 1}^{n_{W}^{[l]}} a_{i j k}^{[l]} \cdot a_{i j k^{'}}^{[l]}

$G^{[l]}kk′= \sum_{i=1}^{n_H^{[l]}} \sum_{j=1}^{n_W^{[l]}} a_{ijk}^{[l]} \cdot a_{ijk'}^{[l]}$

风格代价函数计算风格图(S)和生成图(G)的风格矩阵间的差异：

J_{s t y l e}^{[l]} (S, G) = \frac{1}{2 n_{H}^{[l]} n_{W}^{[l]} n_{C}^{[l]}} \sum_{k = 1}^{n_{C}^{[l]}} \sum_{k' = 1}^{n_{C}^{[l]}} ‖ G_{k k'}^{[l] [S]} - G_{k k'}^{[l] [G]} ‖^{2}

$J^{[l]}_{style}(S,G)= \frac{1}{2 n_H^{[l]} n_W^{[l]} n_C^{[l]} } \sum_{k=1}^{n^{[l]} _C} \sum_{k′=1}^{n^{[l]} _C} \| G^{[l][S]}_{kk′} −G^{[l][G]}_{kk′} \|^2$

可能是由于不同通道间提取到的特征的相似度较低，可以使用多层的风格矩阵相加如下， $\lambda$ 是权重超参：

J_{s t y l e} (S, G) = \sum λ [l] \cdot J_{s t y l e}^{[l]} (S, G)

$J_{style}(S,G)=\sum λ[l]⋅J^{[l]}_{style}(S,G)$

3、多维卷积

主要在于大小(维度)的变化，输入时什么维度，滤波器也是什么维度，通道数保持一致，滤波器个数随意。

二维：

这里写图片描述

一维：

这里写图片描述

三维：

这里写图片描述