介绍
MOT16: A Benchmark for Multi-Object Tracking
多目标跟踪,相比MOT15:
- 注释框更多
- 多目标类别
- 多种感兴趣目标的可见程度
这里主要关注它的评价体系,MOTA和MOTP,用于posetrack评价体系中
评价指标
没有最好的指标,选择“正确的”评估标准很大程度上依赖于应用程序,对一种独特的、通用的评估标准的探索仍在进行中:
- 一方面,最好将性能总结成一个数字,以便进行直接比较。
- 另外一方面,人们并不希望丢失某些信息,如算法产生的个别错误,这就要求提供多种性能估计,这样会妨碍获得一个清晰的比较
MOT16中采用两套测量方法:
- Stiefelhagen提出的CLEAR度量
- Wu 和 Nevatia 提出的一系列跟踪质量测量方法
跟踪结果和目标结果匹配
要量化跟踪器的性能,有两个常见的前提:
- 确定每一个假设性输出,是真阳结果还是假阳结果。这判断一般由一个阈值所决定,阈值可能基于距离设计或者基于相似性设计。后面有说如何设计。此外还有false negative结果,没有检测到的目标。除了使用一个绝对的数值来显示假阳结果的多少,还用到一个基于每帧假阳结果多少设计的假阳率(FAP(false alarms per frame)/FPPI(false positives per image))
- 另外一个前提是确定检测结果和目标之间的匹配问题,一个检测结果最多对应一个目标,一个目标最多对应一个检测结果
对于下面的问题,我们假设每一个ground truth轨迹都有一个唯一的开始和唯一的结束点,即它不是片段化的。
注意,当前的评估过程没有显式地处理目标重新标识。换句话说,当一个目标离开视场然后重新出现时,它将被视为一个具有新ID的不可见目标。
MOT里使用匈牙利算法求最佳匹配。因为这个算法只适合单帧图片中进行最佳匹配,并没有考虑到帧间的联系。
具体而言,给定帧中,结果和ground truth 匹配,然后在帧中,结果和ground truth 的距离或者相似度小于,那么,结果和ground truth 的匹配应该从帧被传递到帧 中,即使帧中存在另外一个结果更加接近真实目标。
论文中穷列了上述四种可能出现的情况以及对应的处理方式:
- 虚线是gt的轨迹,灰色的范围是匹配阈值,意思是在该范围内的检测结果才参与匹配,范围外的都是false positive。另外空心黑色圆是false negative,实心黑色圆是true positive,实心圆外面的颜色对应于匹配的检测结果
- 实线是检测结果的轨迹,不同颜色表示不同的目标,空心的 false positive,实心的true positive
四种情况如图所示,重点关注那个ID switch,每次发生都是不合理的,和false positive ,false negetive 一样要在总分中被惩罚的
距离度量
使用iou度量,选择阈值为0.5
目标外观标注
MOT16 中只关注那些直立的,站着或者行走的,可以直接被看到的,没有被玻璃遮挡或者镜子反射的目标
对于除此以外的目标,评价体系选择忽略,即既不加分也不扣分
怎么排除这些目标:
- 对检测结果和带有类别标签的结果进行匈牙利算法匹配
- 和这些该忽略的类iou重叠高于0.5的检测结果被去除,该忽略的类包括某些分散注意力的类(distractor),静止的人,反射结果,或者在交通工具上的人。如上图所示所有非ped标签的类都该被忽略。
- 最后评价时只关注,那些被标注为行人的检测框
MOTA - Multiple Object Tracking Accuracy
厉害了我的哥,一个指标包含了3种可能出现的问题
MOTP - Multiple Object Tracking Precision
其中 是帧中的匹配数目,而则是该帧中每个匹配的iou值 0.5-1
需要指出的是,MOTP是一种定位精度的度量,不要与使用的精度/回忆曲线(例如在对象检测中)中的正向预测值或相关性相混淆。
跟踪效果度量
跟踪成功与否看一条gt有多长被成功跟踪:
- 如果80%以上称为 mostly tracked MT
- 低于20%叫 mostly lost ML
- 其它叫 partially tracked PT