论文总结《Integrating Stereo Vision with a CNN Tracker for a Person-Following Robot Bao》


标题:《Integrating Stereo Vision with a CNN Tracker for a Person-Following Robot


出版源:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)

论文领域:CNN tracker, person following robot, tracking, stereo vision






跟随机器人的人有很多应用,比如杂货店里的自动推车[26],医院里的个人向导,或者机场里的自动手提箱[1]。动态环境下跟随机器人的人需要解决不同挑战性情况下的跟踪问题(外观变化、光照变化、遮挡、蹲姿、换衣等姿势变化)。利用在线卷积神经网络(CNN)对不同情况下的给定目标进行跟踪。被跟踪的目标可能会在拐角处移动,使其从机器人的视野中消失。我们通过计算目标最近的姿态来解决这个问题,当目标在当前帧中不可见时,让机器人复制目标的本地路径。正在使用的机器人是一个配备了立体声摄像机的先锋3AT机器人。我们用两台立体声摄像机测试了我们的方法,分别是Point Grey bumblebee21和ZED立体声摄像机。


3.1 概述


3.2 详解方法

在这里,描述了提出的CNN模型和学习过程。CNN的输入是RGB通道,从立体图像计算深度,称之为RGBSD (RGB- stereo depth)。立体深度(SD)是使用ZED SDK3计算的。CNN跟踪器输出目标的深度和质心。机器人的导航模块使用深度和质心来跟踪目标并在需要时复制路径。

3.2.1CNN models with RGBSD images

  • 第一个模型(CNN v1)使用RGBSD层作为单个图像来馈送ConvNet。与传统CNN架构类似,网络包含卷积层、完全连接层和输出层(见图1)。

  • 第二个模型(CNN v2)使用2个卷积流,输入是一个流的RGB通道,另一个流的输入是立体深度图像(见图1)。在完全连接层中,输入是来自这两个卷积流的平坦输出的组合。

  • 第三个ConvNet(CNN v3)是一个基于常规RGB图像的CNN。它的结构与第一个模型相似。现在我们描述我们初始化和更新CNN跟踪器的方法。

    (2)一旦CNN被激活,边界框中的patch将被标记为class 1。边界框周围的面片被标记为class 0。


测试集选择:一旦CNN分类器被初始化或更新,我们使用它来检测下一帧中的目标。当新的帧与立体深度层同时可用时,我们在局部图像区域搜索测试patch,如图2(a)所示。我们还对搜索空间的深度进行了限制,如图2(b)所示。如果图像中的补丁没有深度在先前的深度±α,我们不认为它们(图2 ©),其中α是搜索区域在深度方向上(我们使用α= 0.25米)。通过这样做,大部分属于背景的补丁在传递到CNN分类器之前都会被过滤掉。只有class-1上的最高响应才会被认为是当前帧的目标。如果在0.5秒后没有检测到目标(例如,class-1 < 0.5的最高响应),它将进入目标丢失模式。然后,扫描整个图像以创建一个测试集。
更新分类器,需要选择一个新的训练集。更新步骤只有在检测执行步骤发现目标在测试集(1级)。为了保持健壮性、最近的50个1级补丁保留前一帧形成的1级补丁池被实现为一个先进先出队列。目标周围的补丁形成类-0补丁池。在这个新的训练集中,我们再次从class-0 patch pool中均匀地选择n个patch。从1级补丁池选择n补丁,我们样本补丁基于泊松分布和λ= 1.0 k = bqueue指数10 c(见方程1和图3)。这给更高的概率选择补丁从最近的历史,而不是选择年长的补丁。这个训练集用于更新分类器。基于泊松分布的类-1补丁抽样避免了过度拟合,并提供了一个机会,以从前一帧的错误检测中恢复。

3.2.2 Navigation of the Robot


定位:机器人的定位需要根据全局坐标系来估计机器人的姿态。在2d的情况下,这是x, y坐标和方向,θ的机器人。机器人在遇到动态障碍物时,必须保持对自身姿态的估计。



5.1 作者结论

5.2 记录该工作的亮点,以及可以改进的地方:只能够跟随不能臂章


