Robust Fragments-based Tracking using the Integral Histogram个人笔记

简介

本文介绍了一种新的碎片式的目标跟踪方法。这种方法比起常用Mean Shift跟踪方法效果更好，且没有漂移的情况。

模型

在这里插入图片描述
基本模型如上图所示，其中：
I为当前的图像，即为当前目标所在的框架范围。
O表示物体（T中绿点即为物体位置）。
T为模板，用来对比（可用第一帧的图像作为模板）。
贴片（Patch）即为碎片选框。
紫色圈表示提前估计的目标位置范围，X₀Y₀表示目标位置，r表示范围。
设P_T（dx dy h w），其中dxdy表示贴片中心距离目标中心xy的距离，h和w表示贴片框的半高和半宽。P_I是P_T在图像I中的对应矩形框，中心为（X+dx Y+dy）。设*d(Q P)*用来衡量区域Q与P之间的相似性，我们定义：
在这里插入图片描述
当点（X Y）在假设的圆形范围内移动时，P_I同样发生变化，我们得到了一张Vote map。那么我们如何衡量相似性呢？

相似性比较

以灰度图像为例，我们利用灰度等级直方图来比较相似性。对于单个的Patch，使用直方图会丢失其空间信息，但是我们使用了多个Patch以及它们的空间排列就可以弥补这个损失。
比较直方图的方法也有很多种，这里使用EMD的方法比较。这个方法可以比较bin自身的差异（疑问）
在这里插入图片描述
上图为使用一般的比较方法和使用EMD的对比，在这两种方法中，值越低(图像中颜色越深)，直方图越相似。EMD表面比单纯测量得到的表面更光滑，且具有更明显的最小值。

Combining Vote Maps

对于每个Patch中的每个区域，EMD都会给出一个分数来表示差异，该分数越小越好。因为XY（即估计目标位置）是可变的，所以会生成许多Patch。若模板中有N个Patch，则对于每个不同估计位置XY，都有一组对应的Patch，我们将一组Patch中所有Patch分数之和作为总得分，使总得分最小的即为目标最可能的位置。但是这样做容易受到遮挡物的干扰。当有遮挡是，差异值容易变得极大，从而对整体的Patch得分有影响，为了减弱这种影响，我们设定了一个阈值T，规定：
在这里插入图片描述
这也是增强鲁棒性的一种方法。
但是，我们发现T的选择并不是很直观，而且会对结果造成巨大影响。还有另一种方法来增强鲁棒性（疑问）。即对所有的Patch组得分进行排序（从大到小or从小到大？），选取第Q位的Patch组作为目标所在位置。Q的选取和目标被遮挡面积有关，若目标露出的面面积至少为25%，则Q为所有Patch组数目的25%。

像素权重

与Mean Shift方法类似，我们可以给像素添加不同的权重以增加效果。例如：
在这里插入图片描述
上图即为三个不同的权重范围。因为利用了积分图像直方图，这样划定边界的额外计算消耗仅仅是四个角上的像素点计算（体现积分图像直方图的定义）。

总结

转自https://blog.csdn.net/chen280085871/article/details/80875106

1）以前的template matching 都是把模板看成一个整体进行比较的，在本篇论文中引入了进行patch
matching，把整个template分成多个patch
2)以前的matching多是基于像素值进行的matching，如correlation，这样的matching非常适合于刚性对象，也就是很少发生形变的那种，或者发生的是类似于仿射变换那样的形变，在deformable的对象中基于像素值的匹配就不大好用，所以就提出了基于直方图的matching，计算直方图的相似性。
3）直方图的similarity的比较不像是基于直方图的，不能简单的使用correlation，或者SSD（sum square
difference），而是选用了很多评价标准，最终算择了EMD方式来衡量。
4）既然是分成patch来衡量的，那么如何把这些patch的matching结果给connection也是至关重要的，文中采取的方式如下：

5）用直方图进行一些matching可以适应一些deformation，但是，自然会忽略一些空间信息，在空间上还可以对不同位置像素值进行权重性比较，同样也可以获得权重化的直方图。（方法看文中）