1.FG-NET (2002)
下载:http://yanweifu.github.io/FG_NET_data/FGNET.zip
命名规则:078A11.JPG,078人物ID,A为Age简写,11为岁数。
FG-Net训练集有818张图片,测试集有170张图片。此数据集包含了82个人在不同年龄的照片,同时提供了每张图中68个人脸关键点信息。鉴于本数据集跨年龄的特色,FG-Net可用于年龄估计、跨年龄人脸识别、年龄变化推演(age progression)等方向的研究。FG-Net曾是年龄方面最流行的数据集之一【9】,但由于此数据集公布时间较早(2002年)、人脸个数较少,且观察其人脸均为白种人,而且一些早期图片为黑白图片,【9】指出该数据的准确率已趋近饱和。所以近期的论文很少用FG-net做Benchmark。
2. MORPH2 (2006)
下载:http://www.faceaginggroup.com/morph/
论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1613043
根据论文引用情况,MORPH2数据集是目前最流行的年龄估计数据集之一,【2】【4】【5】等论文均在数据集基础上进行了评测,但【9】指出该数据集的准确率近年也已趋近饱和。MORPH2也是一个跨时间的数据集,收录了同一个人在不同年龄段的图片。该数据集分为商用和学术用版本,学术用版本包括了13000个人的55134张图片,照片收集时间跨度2003-2007年,人物年龄为16-77岁,平均年龄为33岁。MORPH2数据集除年龄外还记录了人物的其他信息,如性别、种族、是否戴眼镜等。
3. Adience (2014)
下载:https://talhassner.github.io/home/projects/Adience/Adience-data.html
论文:https://www.openu.ac.il/home/hassner/Adience/EidingerEnbarHassner_tifs.pdf
Adience数据集包括2284个人的26580张图片。其特点为均为真实场景下拍摄(in the wild),照片受到噪声、姿态、光照等影响很大,旨在解决真实世界中的年龄和性别检测问题,网站上同时提供了原始数据和矫正后的人脸。该数据集使用了区间标注的方法,分为了8个区间:(0-2, 4-6, 8-13, 15-20, 25-32, 38-43, 48-53, 60-)。
4. CACD (2014)
下载:http://bcsiriuschen.github.io/CARC/
论文:http://cmlab.csie.ntu.edu.tw/~sirius42/papers/chen14eccv.pdf
CACD收集了2000个名人的163,446张图片,年龄跨度为16 到 62。截止论文发表时间,是当时最大规模的跨年龄数据集。收集照片的时间跨度为2004-2013年。数据集同时也提供了16个人脸关键点的标注信息。CACD数据集提供者明确指出,虽然该数据集包含人物年龄信息,但只建议使用此数据集做跨年龄人物检索,不建议使用该数据集来做年龄预估。、
5.ChaLearn LAP Dataset (2015 / 2016)
下载:http://gesture.chalearn.org/2016-looking-at-people-cvpr-challenge/isogd-and-congd-datasets
论文:http://www.cbsr.ia.ac.cn/users/jwan/papers/CVPRW2016_JunWan.pdf
LAP(Look At People)竞赛于2015和2016举办了两年,两年数据集规模分别为5000和8000(基于官网)。与其他数据集的标签为真实年龄不同,LAP数据集的标签是外观显示年龄(apparent age),标签制定平均了至少10个人的标注结果,所以每张图片的年龄标签都是一个正态分布。比赛排名中使用的是结合均值和方差的综合误差E-error【3】。LAP数据集在20-40岁的分布相对均匀,在0-15和65-100区间数据集较少。
6. IMDB-WIKI(2015)
下载:https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
论文:https://www.vision.ee.ethz.ch/en/publications/papers/proceedings/eth_biwi_01229.pdf
IMDB-WIKI数据集是目前规模最大的年龄数据集之一,【3】的作者提出了本数据集并在其基础上finetune网络,赢得了LAP2015年的冠军。本数据集来源包括IMDB(一个明星网站)和Wikipedia中的两万个人,图片数量分别为460723和 62328。标注方法是找到某个名人的照片,然后通过照片拍摄年份减其出生年份得到其年龄标签。经过观察和及【5】指出,由于数据集标注过程是自动处理的,故标注质量不高,有很多错误内容。在【3】、【5】中,主要使用该数据集进行网络初始训练。下图是提取了几张与笔者同生日名人的图片,可以看到有些图片甚至没有人脸。
7. AFAD (2016)
下载:https://github.com/afad-dataset/tarball
论文:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Niu_Ordinal_Regression_With_CVPR_2016_paper.pdf
数据集【4】规模为164432张脸,其中63680张女性、100752男性。年龄段为15-40岁。该数据集的特点是数据几乎全是中国人。该数据的数据来源为人人网,首先爬取人人网上的图片数据并获取相册所有者的年龄,然后使用人力对错误图片进行过滤。本数据年龄分布也不是很均衡,在最年轻和年纪较大的年龄段数据较少(也好理解,因为该年龄使用人人网的人少)。
根据观察,感觉数据集整体标注效果比较准确,但有一些小图片(22*22)看不清楚,且有很多同一个人的图片几乎完全一样。数据集还有一个特点就是图片截取的较小,只留了较少的脸部,发型和颈部都去除了。其实年龄估计和人的发型、身体等也有一定联系,截取太小将无法使用到这些信息。
8. MegaAge/MegaAge-Asian (2017)
下载:http://mmlab.ie.cuhk.edu.hk/projects/MegaAge/
论文:http://personal.ie.cuhk.edu.hk/~ccloy/files/bmvc_2017_megaage.pdf
MegaAge数据集由商汤发布【2】,总数有41941张图片,同一论文提出的MegaAge-Asian包含40000张亚洲人(绝大部分是东亚人)的图片,两个数据集年龄段都是0-70。数据集人脸的原始来源是MegaFace和YFCC。论文中提到,由于MegaAge-Asian的种族相对单一,故同一年龄估计算法MegaAge-Asian上的表现一般要优于MegaAge数据集上的表现。
经观察,MegaAge-Asian标注结果比较精准,提供的图片大小统一为178*218,在保持比例前提下进行了补边操作,数据集包含了明星和普通人的图片。
9.AGE-DB(2017)
下载:https://ibug.doc.ic.ac.uk/resources/agedb/
论文:https://core.ac.uk/download/pdf/83949017.pdf
AgeDB包含16,488个各种名人的图像,如演员,作家,科学家,政治家,每个图像都注明了身份,年龄和性别属性。 共存在568个不同的科目。 每个科目的平均图像数为29。最低和最高年龄分别为1和101。每个科目的平均年龄范围是50.3岁。博主还在论文作者那里获取了AGE-DB30的测试协议以及相关测试文件,有需要的同学可以留下你们的联系方式。
10.CAF(2018)
下载:腾讯未公开
论文:https://arxiv.org/pdf/1810.07599.pdf
CAF是腾讯收集的,其包括来自4,668个身份的大约313,986张脸部图像。每个身份都有80面部图像。所有这些图像都经过仔细和手动注释。考虑到缺乏确切的年龄信息,他们利用了公共预训练年龄估计模型DEX [12]预测每个面部图像的粗糙年龄标签。
11.CAFR(2019)
下载:
论文:https://arxiv.org/pdf/1809.00338.pdf
CAFR总共有来自25,000的1,446,500张面部图像 ,CAFR数据集中的主题。 每个人平均有57.86图像。 应该是目前最大的跨年龄数据库。论文还未被接受。
参考文献
- Age progression in Human Faces A Survey
- Quantifying Facial Age by Posterior of Age Comparisons
- DEX: Deep EXpectation of apparent age from a single image
- Ordinal Regression with Multiple Output CNN for Age Estimation
- SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation
- Age and Gender Classification using Convolutional Neural Networks
- Face detection without bells and whistles
- Ordinal Hyperplanes Ranker with Cost Sensitivities for Age Estimation
- Age and Gender Estimation of Unfiltered Faces
- Active appearance models
- DeepCD: Learning Deep Complementary Descriptors for Patch Representations
- Deep expectation of apparent age from a single image