2018 CVPR-Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

论文地址

代码地址：tensorflow

Motivation

已有很多算法在现有的Re-ID数据集取得了较高的精度，但是相对于实际应用场景差距较大(人与摄像头数量、各种变化)
不同数据集之间存在domain gap，在一个数据集上训练模型，在另外一个数据集上进行预测性能下降很大，如何解决这个问题呢？

Contribution

提出了更加接近真实场景的MSMT17数据集
提出了利用现有数据集的行人迁移模型，可能缓解在新数据集上标注的代价，并使在实际场景训练re-id系统更加容易
分析了阻碍re-id应用的一些问题

1.Introduction

re-id定义以及意义
目前re-id面临的问题：(motivation)
- 现有公开的数据集与真实场景存在很大不同
- 不同re-id的数据集之间存在domain gap，在一个数据集上训练好的不模型无法应用在另一个数据集上，如下图：
解决方法：contribution

2.Related Work

2.1.Descriptor Learning in Person ReID

global descriptors
local cues
misalignment issue

2.2. Image-to-Image Translation by GAN

条件GAN
Cycle-GAN
用GAN产生新样本

3.MSMT17 Dataset

3.1. Overview of Previous Datasets

现有数据集如下表：
现有数据集的局限性：
- 人以及摄像头的数量不够大
- 单一的场景：要么室内或者室外
- 由短时间的监控录像组成，没有显著的光照变化，bbox要么是由人工标注要么是采用过时的检测器DPM

3.2. Description to MSMT17

15个摄像头：12个室外、3个室内
一个月中选了天气不同的4天，对于每一天，在早上、中午、下午各采集了1小时
最后视频总长180小时：15x4x3
Faster RCNN作为行人检测框
三个标注者用两个月进行标注
与现有数据集的比较如下图：
数据集的一些统计如下图：
数据集特性：
- 大量的人(4101)、bbox(126441)、摄像头(15)
- 复杂的场景与背景
- 多个时间段导致严重的光照变化
- 更加可靠的检测器：Faster RCNN

3.3. Evaluation Protocol

训练与测试集划分为1：3，训练集为1041个人的32621bboxes，测试集3060人的93820的bboxes，其中随机选11659个bboxes作为query，其他82161个作为gallery
评价指标：
- CMC
- mAP

4.Person Transfer GAN

目的：
- 更好将A数据集上的训练数据用在B上，直接使用会因为不同数据集的光照条件、背景、分辨率等条件的不同导致性能很差
- 在实际中，出现在A中的人如果被B中的摄像头拍到，其风格应该与B一致，本文的person transfer在于模仿这一过程
  - 保证迁移的人物与目标数据集有相同的风格
  - 在迁移过程保持人的外观和身份线索
PTGAN：两个限制
- style transfer一致性：学习不同数据集上的风格映射函数
- person identity一致性：保证在迁移过程中人的身份不变
PTGAN损失函数定义如下： $\mathcal{L}_{Style}$ 代表风格损失， $\mathcal{L}_{ID}$ 代表身份损失
$L_{P T G A N} = L_{S t y l e} + λ_{1} L_{I D}$ $\mathcal{L}_{PTGAN} = \mathcal{L}_{Style} + \lambda_1\mathcal{L}_{ID}$
不同ReIDs数据集没有成对的行人图像–> Cycle-GAN(unpair image-to-image tanslation task)
style transfer learning目标函数如下：
$L = L_{G A N} (G, D_{B}, A, B) + L_{G A N} (\bar{G}, D_{A}, B, A) + λ_{2} c y c (G, \bar{G})$ $\mathcal{L} = \mathcal{L}_{GAN}(G, D_B,A, B) + \mathcal{L}_{GAN}(\bar{G}, D_A, B, A) + \lambda_2\mathcal{cyc}(G, \bar{G})$
身份损失目标函数如下：
PSPNet用来提取图像中的行人
下图为PTGAN产生的结果样例：

5. Experiments

5.1. Datasets

MSMT17、DukeMTMC-reID、Market-1501、CUHK03、PRID

5.2. Implementation Details

Cycle-GAN:
- generator network:
  - stride-2 convolutions, 9 residual blocks, and two stride- $\frac{1}{2}$ - fractionally-strided convolutions
  - learning_rate:0.0002
- discriminator network(two parts):
  - PathGAN:分类图片中70x70patch是真实还是假的
  - 对于前景的人，计算输入与输出的 $L_2$ 距离，(PSPNet)
  - learning_rate:0.0001
Adam
$\lambda_1=10,\lambda_2=10$
input size:256 x 256

5.3. Performance on MSMT17

实现了在Market与CUHK03上的SOTA方法在MSMT17上进行了测试
GoogleNet作为了本文的baseline
实验结果如下表：
下图为检索结果示例：

5.4. Performance of Person Transfer

两种测试：
- 从大数据集A到小数据集上B
- 从大数据集A到大数据集上B

5.4.1 Transfer from Large Dataset to Small Dataset

CUHK03和Market –> PRID的两个摄像头style
迁移的结果如下图：

CUHK03 –> PRID

Market1501 –> PRID
对直接使用原数据集进行训练以及迁移后的图片进行训练，结果如下表：
实验说明即使不借助目标数据集上的label也能得到较合理的性能
当结合两个cam风格的数据后性能最好，可能原因：
- 更多的数据有助于训练深度网络
- 不同视角下的行人图片增加了网络学习到特征的鲁棒性

5.4.2 Transfer from Large Dataset to Large Dataset

因为大型数据集摄像头很多，对于每个摄像头使用PTGAN开销太大，该实验中没有区分摄像头，只使用了一个PTGAN
实验结果如下图：
样本示例如下图：

5.5. Performance of Person Transfer on MSMT17

同样是对比在直接使用源数据集训练与迁移后的数据训练结果，如下表：
测试了person tranfer在有效的训练数据但大量测试集这种更接近真实场景下的作用，结果如下表：

实验说明10%的MSMT数据与从Duke迁移的数据得到的性能相似—> 6.3迁移图片等价一张标注图片

6. Conclusions and Discussions

为re-id社区贡献了一个大规模MSMT数据集，目前为止最大的数据集，在光照、场景、背景、人类姿势有大幅差异，更接近真实场景
提出了PTGAN来解决数据集之间的Domain gap，通过大量实验证明了PTGAN对于降低Domain gap的有效性
不同的摄像头之间存在不同的风格，很难用一个map函数来进行不同的风格，本文的策略并不是最优的，可以通过用多个map函数来考虑不同的风格差异—2018-CVPR-Camera Style Adaptation for Person Re-identification

2018 CVPR-Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

Motivation

Contribution

1.Introduction

2.Related Work

2.1.Descriptor Learning in Person ReID

2.2. Image-to-Image Translation by GAN

3.MSMT17 Dataset

3.1. Overview of Previous Datasets

3.2. Description to MSMT17

3.3. Evaluation Protocol

4.Person Transfer GAN

5. Experiments

5.1. Datasets

5.2. Implementation Details

5.3. Performance on MSMT17

5.4. Performance of Person Transfer

5.4.1 Transfer from Large Dataset to Small Dataset

5.4.2 Transfer from Large Dataset to Large Dataset

5.5. Performance of Person Transfer on MSMT17

6. Conclusions and Discussions

猜你喜欢