1. 论文信息

论文标题：Visual Tracking with Online Multiple Instance Learning
论文作者：
1. Boris Babenko，University of California, San Diego
2. Ming-Hsuan Yang，University of California, Merced
3. Serge Belongie，University of California, San Diego
发表会议：CVPR，2009

2. 基础知识

目标跟踪的三大要素：图像表示（Image Representation）、外观模型（Appearance Model）和运动模型（Motion Model）。
本文中的图像表示为Haar-like特征，外观模型由一个判别分类器组成，运动模型就是在上一帧目标周围取一系列的patches（要求：距离 < $s$ ），看哪一个patch的概率最高就将新的目标框给它（贪心算法）。
本文的重点是外观模型。
本文没有考虑旋转和尺度变化。

3. 整体思路

只要能够在每一帧中都能应用上述贪心算法，理论上就能实现目标跟踪，那么，程序如何计算各个patches（要求：距离 < $s$ ）的概率呢？
只要每一帧确定了当前的目标位置，程序就会对外观模型进行更新，实质上是更新判别分类器，新的分类器会对各个patches（要求：距离 < $s$ ）的概率重新进行计算，将概率最大的patch作为新的目标位置。

这里写图片描述

4. 判别分类器如何更新

一旦确定了当前的目标位置，就选取一组patches（要求： $\gamma$ < 距离 < $\beta$ ），把这些patch放到一个包里面，标记为positive，即假设这个包里面的所有patch中，至少有一个是正样本。
同时也另选取一组patches（要求： $\gamma$ < 距离 < $\beta$ ），对于这些patch，每个都作为一个独立的包（有多少个patch，就有多少个包），标记为negative，即假设这个包里面的patch是负样本。
注意：这里用的判别分类器并不是一个单独的分类器，实际上它由许多独立的基于Haar-like特征的弱分类器构成，将这些弱分类器用线性的方式加起来，就形成了一个Haar级联分类器：

H (x) = \sum k = 1 K α k h k (x) (1)

$H\left( x \right) = \sum\limits_{k = 1}^K {{\alpha _k}{h_k}\left( x \right)} \tag{1}$

上述公式(1)中的 $K$ 表示候选分类器， ${\alpha_k}$ 是权值，最终目的是从 $M$ 个Haar-like特征分类器中选出 $K$ 个用于进行判别。

该论文在更新判别分类器时，核心算法如下所示：
1. for $k$ = 1 to $K$ do
2. for $m$ = 1 to $M$ do
3. $p_{ij}^m = \sigma \left( {{H_{ij}} + {h_m}\left( {{x_{ij}}} \right)} \right)$
4. $p_i^m = 1 - \prod\nolimits_j {\left( {1 - p_{ij}^m} \right)}$
5. ${{\cal L}^m} = \sum\nolimits_i {\left( {{y_i}\log \left( {p_i^m} \right) + \left( {1 - {y_i}} \right)\log \left( {1 - p_i^m} \right)} \right)}$
6. end for
7. ${m^ * } = \arg {\max _m}{{\cal L}^m}$
8. ${h_k}\left( x \right) \leftarrow {h_{{m^ * }}}\left( x \right)$
9. ${H_{ij}} = {H_{ij}} + {h_k}\left( x \right)$
10. end for
在上述算法中，第三行中求的是样本的概率，第四行求的是包的概率。
从上面的算法可以看出，本文MIL算法主要依赖对数似然函数进行求解，每处理一帧图像，算法就会采集一些训练样本 $\left\{ {\left({{X_1},{y_1}} \right),\left( {{X_2},{y_2}} \right) \cdots } \right\}$ ，其中 ${X_i} = \left\{ {{X_{i1}},{X_{i2}} \cdots } \right\}$ ，这时，算法会通过估计 $p\left( {y|x} \right)$ 的值来使对数似然函数最大化，如下所示：

$log L = \sum i log (p (y i | X i)) (2)$ $\log {\cal L} = \sum\limits_i {\log \left( {p\left( {{y_i}|{X_i}} \right)} \right)} \tag{2}$

其中，

$p (y | x) = σ (H (x)) (3)$ $p\left( {y|x} \right) = \sigma \left( {H\left( x \right)} \right) \tag{3}$

而

$σ (x) = 1 1 + e - x (4)$ $\sigma \left( x \right) = \frac{1}{{1 + {e^{ - x}}}} \tag{4}$

$\sigma \left( x \right)$ 是Sigmoid函数，其中 $x$ 为 $H\left(x \right)$ ，表示分类器的结果。

5. 一些不足及相应的修补方法

对于positive包，一个包中有多个实例，文章在计算时假定这些实例全部为正样本，这种假设离真实情况存在差异，其补救办法是：基于似然损失函数来选择弱分类器 $h$ 。
在选择弱分类器时，没有采用系数，文章没有对此问题加以补救，文章认为这并没有影响性能。
似然函数在计算时，仅仅依据当前的样本，可能导致对当前样本的过拟合，文章通过保留历史数据的做法进行修补（前面的算法有没有体现这种思想？）

6. 实现细节

在文章中，每一个弱分类器 ${h_k}$ 由一个Haar-like特征 ${f_k}$ 以及对应的4个参数构成，弱分类器返回一个对数概率，如下所示：

$h k (x) = log [p t ( y = 1 | f k ( x ) ) p t ( y = 0 | f k ( x ) )] (5)$ ${h_k}\left( x \right) = \log \left[ {\frac{{{p_t}\left( {y = 1|{f_k}\left( x \right)} \right)}}{{{p_t}\left( {y = 0|{f_k}\left( x \right)} \right)}}} \right] \tag{5}$

其中，

$p t (f t (x) | y = 1) \sim N (μ 1, σ 1) p t (f t (x) | y = 0) \sim N (μ 2, σ 2) (6)$ $\begin{array}{*{20}{l}} {{p_t}\left( {{f_t}\left( x \right)|y = 1} \right) \sim N\left( {{\mu _1},{\sigma _1}} \right)}\\ {{p_t}\left( {{f_t}\left( x \right)|y = 0} \right) \sim N\left( {{\mu _2},{\sigma _2}} \right)} \end{array} \tag{6}$
文章令 $p(y=1)=p(y=0)$ ，采用贝叶斯来计算 ${h_k}\left( x \right)$ 。当这个弱分类器接收了一组新数据 $\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n))\}$ 时，更新的原则如下所示：
$μ 1 \leftarrow γ μ 1 + (1 - γ) 1 n \sum i | y i = 1 f k (x i) σ 1 \leftarrow γ σ 1 + (1 - γ) 1 n \sum i | y i = 1 (f k (x i) - μ 1) 2 - - - - - - - - - - - - - - - - - \sqrt (7)$ $\begin{array}{*{20}{l}} {{\mu _1} \leftarrow \gamma {\mu _1} + \left( {1 - \gamma } \right)\frac{1}{n}\sum\limits_{i|{y_i} = 1} {{f_k}\left( {{x_i}} \right)} }\\ {{\sigma _1} \leftarrow \gamma {\sigma _1} + \left( {1 - \gamma } \right)\sqrt {\frac{1}{n}\sum\limits_{i|{y_i} = 1} {{{\left( {{f_k}\left( {{x_i}} \right) - {\mu _1}} \right)}^2}} } } \end{array} \tag {7}$
其中， ${\gamma}$ 被称为学习率参数。
对 ${\mu_0}$ 和 ${\sigma_0}$ 的更新原则也是一样的。
上述弱分类器函数 $h_k\left( x \right)$ 的计算在配套代码中有所体现，比如：

x = samples.feature;
p0 = exp((x - mu0).^2.*e0).*n0;
p1 = exp((x - mu1).^2.*e1).*n1;

r = log(eps + p1) - log(eps + p0);

7. 源码分析

源码中几个重要的步骤有：采样、为每个样本计算Haar特征、更新弱分类器和选择分类器，其中更新弱分类器有三个相关函数（weakClassifierUpdate、weakClassifier、MilBoostClassifierUpdate）。
函数weakClassifierUpdate、weakClassifier、MilBoostClassifierUpdate之间的区别在于，weakClassifierUpdate 主要用于更新 $\mu$ 和 $\sigma$ ，weakClassifier。主要用于存放各个弱分类器对各个样本的分类结果， MilBoostClassifierUpdate主要用于选出50个分类器。
算法的主要结构如下图所示：

Visual Tracking with Online Multiple Instance Learning (MIL)目标跟踪论文笔记

1. 论文信息

2. 基础知识

3. 整体思路

4. 判别分类器如何更新

5. 一些不足及相应的修补方法

6. 实现细节

7. 源码分析

猜你喜欢