一,Results Format
本页面描述了COCO使用的结果格式。结果格式的一般结构类似于所有的注解类型砂(annotation type sand),它们与下载页面上描述的基本事实的格式非常相似。我们建议在继续之前查看实际真值(ground truth)的格式。
每个算法生成的结果(如对象边界框,对象片段或图像标题)都会分别存储在自己的结果结构中。这个单例结果结构必须包含从中产生结果的图像的id(注意单个图像通常会有多个关联的结果)。整个数据集的结果汇总在一个这样的结果数组中。最后,整个结果数组作为单个JSON文件存储到磁盘(通过Matlab中的gason或Python中的json.dump 保存)。
示例结果JSON文件在coco/results/中,作为github包的一部分提供。因为结果格式类似于实际真值注释格式,所以用于访问实际真值的CocoApi也可以用来可视化和浏览算法结果。有关详细信息,请参阅evalDemo(demo)以及CocoApi中的loadRes()。
下面介绍每个结果类型的数据结构。下面的各个字段的格式(category_id,bbox,分段等)与基本事实相同 (详情请看MS COCO官网数据集下载以及API和Format介绍(来自官网)).
1. Object detection (bounding boxes)
2. Object detection (segmentation)
3. Keypoint detection
4. Stuff segmentation
5. Caption generation
二、Test Guidelines
COCO数据可以从download page.获得。每个挑战有不同的培训/验证/测试集,详细信息在下载页面上提供,并在这里总结:
任何形式的外部数据都是允许的。将结果上传到服务器时,必须在“方法说明(method description)”中指定用于训练的所有外部数据。我们强调,严格禁止任何形式的COCO测试集注释或使用的监督或无监督的培训。注意:将结果上传到评估服务器时,请在“方法描述”中明确指定用于培训的所有外部数据。
测试集拆分
在2017年之前,测试集有四个拆分(dev / standard / reserve / challenge)。 从2017年开始,我们将测试集简化为只有dev/challenge分裂,其他两个拆分被删除。四个拆分的最初目的是为了保护挑战的完整性,同时让研究人员灵活地测试他们的系统。经过多年的挑战之后,我们没有看到过度适合特定拆分的证据(输出空间的复杂性和测试集的大小可以防止简单的攻击,例如wacky boosting)。因此,我们在2017年简化了参与挑战。
2017测试集拆分
2017年COCO测试集包含〜40K个测试图像。 测试集被分成两个大致相同大小的分割约20K的图像:test-dev 和test-challenge。每个都在下面详细描述。另外,当上传到评估服务器时,我们现在允许提交5K val分割以调试上传过程。请注意,2017年的测试集指南已更改,您可以查看旧版使用信息的2015年指南。2017年的测试分割如下:
split | #imgs | submit limit | scores available | leaderboard |
---|---|---|---|---|
Val | ~5K | no limit | immediate | none |
Test-Dev | ~20K | 5 per day | immediate | year-round |
Test-Challenge | ~20K | 5 total | workshop | workshop |
Test-Challenge::test-challenge split被用于每年托管的COCO挑战。结果在相关研讨会(通常是ECCV或ICCV)中公布。每个参与者的提交数量限制在挑战的总长度上最多5次上传。如果您提交多个条目,则基于test-dev AP的最佳结果将被选中作为参赛者的参赛作品。请注意,每个参与者只能向公众排行榜发布一次提交。测试挑战服务器将在每年的比赛前保持一段固定的时间。
属于每个分割的图像在image_info_test-dev2017(用于test-dev)和image_info_test2017(用于test-dev 和test-challenge)中定义。test-challenge 图像的信息没有明确提供。相反,在参与挑战时,必须在完整的测试集(包括test-dev 和test-challenge)上提交结果。这有两个目标。首先,参与者在挑战研讨会之前通过在test-dev中看到评估结果,获得关于他们提交的自动反馈。其次,在挑战研讨会之后,它为未来的参与者提供了一个机会,可以与test-devsplit的挑战条目进行比较。我们强调,当提交到完整的测试集(image_info_test2017)时,必须在所有图像上生成结果而不区分拆分。最后,我们注意到,2017年的dev / challenge分组包含与2015年dev / challenge分组相同的图像,因此跨越多年的结果可以直接进行比较。
为单个项目创建多个帐户来规避提交上传限制是不可接受的。如果一个小组发表两篇描述不相关方法的论文,则可以创建单独的用户账号。对于挑战,只有在提出实质上不同的挑战方法(例如基于不同的论文)时,一个小组才可以创建多个帐户。为了调试上传过程,我们允许参与者在val集上提交无限的评估结果。
2015 Test Set Splits
该测试集用于2015年和2016年的检测和关键点挑战。它不再使用,评估服务器关闭。但是,对于历史参考,完整信息如下。
split | #imgs | submission | scores reported |
---|---|---|---|
Test-Dev | ~20K | unlimited | immediately |
Test-Standard | ~20K | limited | immediately |
Test-Challenge | ~20K | limited | challenge |
Test-Reserve | ~20K | limited | never |
Test-Dev:我们没有限制允许测试开发的提交数量。事实上,我们鼓励使用test-dev进行验证实验。在提交到完整的测试集之前,使用test-dev来调试并完成您的方法。
Test-Standard:测试标准分割是检测竞争的默认测试数据。 与现有技术相比,结果应该按照测试标准进行报告。
Test-Challenge::测试挑战分裂用于COCO挑战。 结果将在相关研讨会上公布。
Test-Reserve:测试预留分割用于防止可能的过度配合。 如果一个方法在测试标准和测试储备方面的得分有很大的差异,就会引起一个红旗,并促使进一步的调查。测试储备的结果将不公开。
2014 Test Set Splits
参与者被推荐但不限于在COCO 2014数据集上训练他们的算法。结果应包含每个验证和测试图像的单个标题,并且必须提交并公开发布在CodaLab排行榜上。将结果上传到评估服务器时,请在“方法说明”中指定用于培训的所有外部数据。
在挑战截止日期前,验证和测试集的结果都必须提交给评估服务器。验证结果将公开并用于性能诊断和可视化。竞争对手的算法将根据评委的反馈进行评估,最佳表现奖将获得奖项。还将邀请2-3支队伍参加LSUN研讨会。
请按照下载,格式,指南,上传和评估页面中的说明进行操作。COCO Caption Evaluation Toolkit也可用。takelit提供标题分析常用指标的评估代码,包括BLEU,METEOR,ROUGE-L和CIDEr指标。请注意,对于竞争而言,人为评判者将会评估算法结果,而不是自动衡量标准。
三、Upload Results to Evaluation Server
此页面描述了将结果提交给评估服务器的COCO检测,关键点和材料挑战的上传说明(字幕质询具有单独的上传说明)。提交结果可让您参与挑战,并将结果与公共排行榜上的最新技术进行比较。请注意,您可以通过在本地运行COCO API中的评估代码来获取val的结果;提交给评估服务器在测试集上提供结果。我们现在给出提交给评估服务器的详细说明:
(1)在CodaLab上创建一个帐户。这将使您可以参与所有COCO挑战。
(2)仔细查看进入COCO挑战和使用测试集的guidelines。
(3)准备一个包含结果的JSON文件,以正确的结果格式输入您想要输入的问题。
(4)文件命名:JSON文件应该命名为“[type] _ [testset] _ [alg] _results.json”。用挑战类型替换[type],用你正在使用的测试拆分替换[testset],用算法名替换[alg]。最后将JSON文件放入名为“[type] _ [testset] _ [alg] _results.zip”的zip文件中。概要:
(7)将结果提交给test-dev评估服务器后,您可以控制是否将结果公开发布到CodaLab排行榜。要切换结果的公开可见度,请选择“post to leaderboard发布到排行榜”或“remove from leaderboard从排行榜中删除”。只有一个结果可以随时发布到排行榜。除了CodaLab排行榜之外,我们还提供我们自己的更详细的检测排行榜,关键点以及其他结果和方法信息(如纸质参考资料)。请注意,CodaLab排行榜可能包含尚未迁移到我们自己的排行榜的结果。一旦结果迁移到我们的公共排行榜,他们不能被删除(但他们可以更新)。对于挑战排行榜,只有在挑战获胜者宣布时才会填充。
(8)评估完成后,服务器显示“Finished完成”状态,您可以通过选择“Download evaluation output from scoring step从评分步骤下载评估输出”下载评估结果。zip文件将包含三个文件:
metadata %自动生成的(安全忽略)
scores.txt %自动生成的(安全忽略)