ILSVRC共举办7年, 其中产生一些如AlexNet,GoogleNet等经典网络,如下对其检测和分类领域的冠军进行总结。ps:下图前三个图展示了不同task对应的意义。
年代 | task | 网络/队名 | 结果 | 说明 |
2012 | 分类 | AlexNet | test top-5 error =0.16422 | 仅使用2012年的数据(使用2011年的数据时,top5 error=0.15315) |
单目标检测 | AlexNet | test top-5 error =0.341905 | 仅使用2012年的数据(使用2011年的数据时,top5 error=0.335463) | |
2013 | 分类 | Clarifai公司(ZFNet) | test top-5 error =0.11743 | 当年数据集上多个模型的平均结果(使用额外数据集时的top5 error=0.11197); ZFNet采用4种结构的5个网络取得top5 error=0.13511(论文中为0.148)的成绩; ZFNet网络的作者Matthew D. Zeiler是Clarifai的创始人兼CEO。 |
单目标检测 | OverFeat | Error=0.298772 | Yann Lecun在纽约大学的团队提出了著名的OverFeat算法 | |
检测 | UvA-Euvision | map=0.22581 | 使用先验知识运行两次的结果; OverFeat - NYU使用额外数据进行预训练map=0.194009排名第五。 | |
2014 | task 1a:基于提供数据的目标检测 | NUS(新加坡国立大学) | map=0.37212 | 基于多模型得分混合后的结果 |
task 1b:使用额外数据的目标检测 | GoogLeNet | map=0.439329 | Ensemble of detection models | |
task 2a:基于提供数据的单目标检测 | VGG(定位冠军)GoogLeNet(分类冠军) | 定位误差(vgg) 0.253231 分类误差(GoogLeNet) 0.06656 | (VGG)多网络组合后的平均结果 | |
task 2b:使用额外数据的目标检测 | Adobe-UIUC(定位冠军) CASIA_CRIPAC_We-ak_Supervision(分类冠军) | 定位误差(Adobe) 0.300961 分类误差(CASIA) 0.11358 | CASIA_CRIPAC为中科院自动化所http://www.cripac.ia.ac.cn/CN/model/index.htm | |
2015 | task 1a:基于提供数据的目标检测 | MSRA(微软亚洲研究院)(ResNet) | map=0.620741 | 集成模型的结果; 单模型的map=0.588451为亚军; MSRA参赛人员中包括何凯明,即ResNet网络的作者 |
task 1b:使用额外数据的目标检测 | Amax | map=0.57848 | Amax组成人员来自: 1、悉尼科技大学; 2、南京信息工程大学; |
|
task 2a:基于提供数据的单目标检测 | MSRA(微软亚洲研究院) | 定位误差0.090178 分类误差0.03567 | ||
task 2b:使用额外数据的目标检测 | Trimps-Soushen(定位冠军) Amax(分类冠军) |
定位误差(Soushen)0.122285 分类误差(Amax)0.04354 | Trimps-Soushen为公安部三所 | |
task 3a:基于提供视频数据的目标检测 | CUVideo | map=0.678216 | CUVideo参赛人员来自: 1、香港中文大学; 2、SenseTime Group Limited(商汤科技); |
|
task 3b:使用额外视频数据的目标检测 | Amax | Amax组成人员来自: 1、悉尼科技大学; 2、南京信息工程大学; |
||
task 4a:使用提供数据的场景分类 | WM | 分类误差0.168715 | WM组成人员来自: 1、中国科学院大学(Li Shen); 2、北京大学(Zhouchen Lin ) |
|
task 4b:使用额外数据的场景分类 | NEIOP | 分类误差0.203539 | ||
2016 | task 1a:基于提供数据的目标检测 | CUImage | map=0.662751 | 6个模型集成的结果 |
task 1b:使用额外数据的目标检测 | CUImage | map=0.660081 | ||
task 2a:基于提供数据的单目标检测 | Trimps-Soushen | 定位误差0.077087 分类误差0.02991 | 定位使用的是emsemble3, 分类使用的是emsemble2 ResNeXt为分类的亚军,误差为0.03031 |
|
task 2b:使用额外数据的目标检测 | Trimps-Soushen | 定位误差0.077377 分类误差0.02991 | ensemble5 | |
task 3a:基于提供视频数据的目标检测 | NUIST | map=0.808292 | NUIST(南京信息工程大学) | |
task 3b:使用额外视频数据的目标检测 | NUIST | map=0.79593 | NUIST(南京信息工程大学) | |
task 3c:使用提供视频数据的目标检测和跟踪 | CUVideo | map=0.558557 | CUVideo参赛人员来自: 1、香港中文大学; 2、SenseTime Group Limited(商汤科技); |
|
task 3d:使用额外视频数据的目标检测和跟踪 | NUIST | map=0.583898 | NUIST(南京信息工程大学) | |
场景分类 | Hikvision | top-5 error =0.0901 | Hikvision(海康威视) | |
常见解析 | SenseCUSceneParsing | Average of mIoU and pixel accuracy=0.57205 | 参赛人员来自: 1、香港中文大学; 2、SenseTime(商汤); |
|
2017 | task 1a:基于提供数据的目标检测 | BDAT | map=0.732227 | 参赛人员来自: 1、南京信息工程大学; 2、伦敦帝国理工学院; |
task 1b:使用额外数据的目标检测 | BDAT | map=0.731613 | ||
task 2a:基于提供数据的单目标检测 | NUS-Qihoo_DPNs (CLS-LOC) (定位冠军) WMW(分类冠军) SENet |
定位误差0.062263 分类误差(WMW)0.02251 | NUS-Qihoo_DPNs (CLS-LOC)参赛人员来自: 1、新加坡国立大学; 2、奇虎360 WMW参赛人员来自: 1、Momenta(国内的自动驾驶公司) 2、牛津大学 |
|
task 2b:使用额外数据的目标检测 | NUS-Qihoo_DPNs (CLS-LOC) | 定位误差0.061941 分类误差0.02713 | 两个结果来自不同的网络 | |
task 3a:基于提供视频数据的目标检测 | IC&USYD | map=0.818309 | 参赛人员来自: 1、伦敦帝国理工学院(IC); 2、悉尼大学(USYD) |
|
task 3b:使用额外视频数据的目标检测 | IC&USYD | map=0.819339 | ||
task 3c:使用提供视频数据的目标检测和跟踪 | IC&USYD | map=0.641474 | ||
task 3d:使用额外视频数据的目标检测和跟踪 | IC&USYD | map=0.642935 |
参考文献: