Title: Joint Detection and Identification Feature Learning for Person Search;
- aXiv上该论文的第一个版本题目是 End-to-End Deep Learning for Person Search
Authors: Tong Xiao1* ; Shuang Li1* ; Bochao Wang2 ; Liang Lin2; Xiaogang Wang1
Affilations: 1.The Chinese University of Hong Kong; 2.Sun Yat-Sen University
Motivation
person re-id问题往往是用已经cropped的行人图像块进行检索,判断query和gallary中的图像是否是同一个identity。这里面存在几个问题:
①现实中检索都是直接从原始场景图像中实现,而不是利用detection之后的cropped image;
②很多数据集都是手动标注的框,实际上detector的检测精度以及是否存在漏检都会对行人重识别的结果造成影响。
因此,作者提出端到端的person search思想,将detection和re-id问题融在一起。
模型
实际上就是将Faster RCNN做了微改,代码也是在Ross Girshick的py-faster-rcnn的基础上修改
-训练中有个地方特别说明,由于直接对原图像进行训练会由于图幅太大(每个mini-batch仅包含两张图)无法训练,同时由于identity太多使得最后的softmax target特别稀疏,使得不收敛,作者采取的方法是先裁剪出bounding box图像进行训练(和detection任务相似),然后提出RSS loss,即随机选取部分神经元计算cross entropy而不是全部。
Dataset
作者提出了新的person search的数据集,包含street view和视频截图