单目标跟踪（四）评价指标

评价系统应该在tracker跟丢的时候检测到错误（failure），并在failure发生的5帧之后对tracker重新初始化。

重启之后的一部分帧是不能用于评价的，这些帧被称作burn-in period（初始化之后的10帧）。

2013：

Accuracy：有效帧的平均交并比

Robustness：平均failure次数

2014：

EFO：在利用vot-toolkit评价tracker之前，先会测量在一个600*699的灰度图像上用30*30最大值滤波器进行滤波的时间，以此得出一个基准单位，再以这个基础单位衡量tracker的速度，以此减少硬件平台和编程语言等外在因素对tracker速度的影响。

2015：

EAO曲线：横坐标为序列长度，纵坐标对应长度序列的平均Accuracy。

精确图 precision plot

追踪算法估计的目标位置（bounding box）的中心点与人工标注（ground-truth）的目标的中心点，这两者的距离小于给定阈值的视频帧的百分比曲线。
该评估方法的缺点：无法反映目标物体大小与尺度的变化。

重合率得分（overlap score，OS即追踪算法得到的bounding box与ground-truth给的box的交并比。OS大于设定的阈值的百分比曲线，

成功率图的曲线下面积

精度图中阈值为20时的值

平均像素误差：Average Pixel Error（APE）：预测目标中心位置与真实位置的像素距离

平均重叠率：Average Overlap Rate（AOR）

时间鲁棒性：将视频序列在时间轴上平均找出20个点作为起点，通过对20段视频序列运行算法，绘制平均的重叠率图或者像素误差图

空间鲁棒性：视频在第一帧，以真实位置稍作偏移作为初始化位置，测试十二段（八个方向，四个尺度），绘制平均的重叠率图或者像素误差图