C3D模型


当前动作分类中视频数据集的缺乏使识别好的视频架构变得困难,在现有的小型工作台上作为大多数方法获得保持类似的性能。本文根据新的动力学人类动作视频数据集重新评价了最先进的体系结构。动力学数据集还有两个数量级的数据,拥有400个真人动作类和超过400个剪辑从现实的,是从具有挑战性的YouTube上收集视频。我们在动力学训练前的数据集,分析了当前的体系结构对该数据集上的行动分类任务进行分析在较小的基准测试上,性能提高了多少我们还介绍了一种新的I3D模型基于2D ConvNet inflation的vNet (I3D): 影像和非常深的图像分类的ter和汇聚核分类 ConvNets扩展到3D模式,这使得它成为可能以学习无缝时空特征提取器视频,同时利用成功的ImageNet架构设计,甚至他们的参数。我们之后会展示对于动力学的预训练,I3D模型有了很大的提高在最先进的行动分类,达到在HMDB-51上为80.9%,在UCF-101上为98.0%。

imageNet的一个意想不到的好处发现深层模型是经过训练的对1000个图像的1000个类别,可以用于其他任务和其他领域。一个早期的例子这是使用一个经过训练的网络中的fc7特性为PASCAL VOC分类和检测挑战题。此外,改进深度架构,从AlexNet到VGG-16, 立即通过中档送至相应的改善PASCAL VOC性能。从那以后,就有了已经有许多经过ImageNet训练的体系结构的例子温暖的开始或完全满足其他任务,心理分析,深度预测,姿势评估,行动分类对。

在视频领域中,训练是否在一个足够大的动作分类网络上当应用时分配到不同的时间任务或数据集,数据集将提供类似的性能提升。建立视频数据集的挑战意味着大多数流行的在行动识别方面,的基准指数很小10k视频的顺序。本文旨在为这个问题提供一个答案使用新的动力学人体动作视频数据集,数量级比上一个大数据集,HMDB-51[18]和UCF-101[29]。动力学已经400个
人类动作类和400多个示例每分类,都有一个独特的YouTube视频。

我们的实验策略是重新实施一些典型的神经网络结构然后先分析它们的转移行为对每个人进行动力学训练,然后对每个人进行微调UCF-51。结果表明
确实存在总是通过训练前的训练来提高成绩,但是前-
助推器帐篷随结构的类型有显著的变化。基于这些发现,我们引入了一个新的模型这有能力利用培训前的优势
动力学,并能达到高性能。该模型称为双流充气3D卷积网络”(I3D),构建在最先进的图像分类体系结构,但是膨胀它们的过滤器和池内核(以及它们的可选内核)参数进入3D,导致非常深,自然空间分类器。基于Inception v1的I3D模型的性能远远超过状态-艺术,在动理学预训练之后。

 



在我们的模型比较中,我们没有考虑更多经典的分类方法,如视觉词汇袋代表表[6,19,22,33]。然而,动力学数据集是可用的,因此其他人可以将其用于此类比较.下一节将概述实现的操作集分类模型。第3节概述动力学数据集。第4节报告模型的性能在以前的基准和动力学上的Kinetics,和第5节研究在动力学上学习的特征转移到不同的数据集。本文最后对其进行了讨论结果

 2 动作分类架构 而图像表示体系结构的发展近年来迅速成熟,但还没有成熟清晰的视频之前运行架构。一些主要的当前视频架构中的差异在于卷积运算和层运算符使用2D(基于图像)或3d(视频)内核;是否输入网络只是一个RGB视频,还是它还包括预计算的可选的卡尔流;对于二维卷积神经网络,信息是怎样的在帧之间传播,我们可以做什么临时重现层,如LSTMs或特性随着时间的推移聚合。

本文对一类模型进行了比较和研究这个空间的大部分。在2D ConvNet方法中,我们考虑上带有LSTMs的ConvNets[5,37]和两种不同类型的融合网络。我们还考虑了一个3D ConvNet [14,30]: C3D 作为主要的技术贡献,我们介绍了两个流膨胀三维对流(I3D)。由于高维参数它们的参数化的维数和缺少视频数据,以前的3D卷积神经网络已经被重新定义了浅层的(最多8层)。这里我们做观察保留非常深的图像分类网络,如Inception [13], VGG-16[28]和ResNet[12],可以简单地膨胀为时空特征提取器 他们预先训练的重量提供了一个有价值的开始。我们还发现双流配置仍然有用的。

五种体系结构的图形化概述我们的评估如图2所示,其规格说明它们的时间接口如表1所示。

许多这些模型(除了C3D)都有一个Imagenet作为子组件的预训练模型。我们的试验,tal策略假设一个普通的ImageNet预训练的图像年龄分类架构作为后骨骼,并为此我们选择了inception-v1与批规格[13],和以不同的方式改变它。期望是这样的脊骨的共同之处,我们将能够将它们分开最有利于行动分类的改变

2 1。旧的I: ConvNet+LSTM

图像分类网络的高性能使尽可能少地重用它们变得有吸引力尽可能改变视频。这可以通过使用来实现然后从每一帧独立提取特征将他们的预测汇集到整个[15]视频中。这是在精神的词袋形象建模的方法;但在实践中虽然方便,但也存在问题完全忽略时间结构。

理论上,一个更令人满意的方法是添加一个recurrent曾给模型[5,37],例如LSTM,它可以编码状态,捕获时序和长范围依赖关系。我们在LSTM层中放置了批nor-malization(如Cooijmans等人提出的初始- v1的最后一个平均池化层,有512个窝单位。在上面添加了一个完全连接的层分类器。该模型是利用交叉熵损失进行训练的在任何时候输出步骤。在测试期间我们只考虑最后一帧的输出。输入视频帧是子帧从原来的25个样本中抽取每5个样本中的1个帧每秒流。

2.2。旧的II: 3D卷积神经网络

3D卷积神经网络似乎是视频模型的一种自然方法和标准的卷积网络一样,但是与时空过滤器。他们已被勘探过几次,以前[14,30,31,32]。他们有一个非常im-重要特征:它们直接创建层次代表时空数据的。其中一个问题是模型比二维模型有更多的参数因为额外的核维度,和这使得他们更难训练。而且,他们似乎排除了ImageNet预处理的好处,因此之前的工作已经定义了相对较浅的自定义从头开始训练它们[14,15,30,31]。重新基准利率的下降显示出了希望,但并没有与最先进的竞争,使这种类型的模型是对较大数据集进行评估的一个很好的候选。

在本文中,我们实现了C3D的一个小变体,有8个卷积层,5个池化层顶部2层完全连接。模型的输入短16-frame剪辑与112×112像素作物最初的实现。与我们使用的[31]不同经过所有的卷积和全卷积后的批处理标准化卷积层。与原始模型的另一个区别是在第一个池化层中,我们使用2步的时间步长而不是1,这样可以减少内存占用并允许对于大批次-这对批次正常-很重要化(特别是在完全连接层之后,在哪里)没有重量束缚)。用这种步幅,我们可以培训与。

实现细节:

除了类似c3d的3D ConvNet外模型都使用ImageNet-预训练初始值作为基础网络。对于所有结构每个卷积层都有一个批次规范化层和ReLU激活函数,除了最后的卷积层每个网络的班级分数。视频的训练使用了标准的SGD和动力在所有情况下均设置为0.9,具有同步并行除了3D ConvNets外,所有模型都有32个gpu的系统接收大量输入帧,因此需要更多的gpu来形成大批量——我们使用了64gpu。我们训练了110k的动力学模型步骤,在验证时将学习率降低10倍饱和损失。我们调整了学习率超参数在动力学验证集上。模型被训练在UCF-101和HMDB-51上最多使用5k步学习速率适应过程,如动力学,但使用仅仅16 gpu。所有的模型都用张量表示流

众所周知,数据增强是至关重要的用于深层架构的性能。在训练中我们在空间上使用随机裁剪-调整大小更小的视频边到256像素,然后随机裁剪一个224×224的补丁和暂时的,当选择开始能在那些足够早的人当中保证一个理想的框架的帧数。对于较短的视频,我们循环播放尽可能多地满足每个模型的输入接口。我们还应用了随机左右翻转在训练期间持续观看每个视频。在测试期间这些模型在整个视频中都是卷积的服用224×224中心切割,预测平均的。我们简单地进行了空间卷积测试256×256的视频,但没有观察改进。也可以通过考虑得到更好的性能左右翻转视频在测试时间和通过添加额外训练时的增强,如光度测定。我们把这事留给以后的工作去做。我们使用TV-L1算法[38]计算光流。

3 所示 动力学人体动作视频数据集动力学数据集中于人类的行为比活动或事件)。action类列表包括:个人行为(单数),例如绘画、饮酒、大笑-荷兰国际集团(ing),冲压;人与人之间的行为,例如拥抱,亲吻-荷兰国际集团(ing),握手;以及Person-Object操作,例如open-送礼物,割草坪,洗盘子。一些操作是细粒度和需要时间推理,以distin-比如不同种类的游泳。其他句意需要更多地强调要区分的对象例如演奏不同类型的管乐器。数据集有400个人工操作类,其中有400个每个类都有更多的片段,每个片来自一个独特的视频共240k培训视频。这些片段持续10秒左右没有未修剪的视频。测试集由100个组成每个类的剪辑。数据集的完整描述和它是如何构建的在[16]中给出。

6 讨论 我们回到引言中提出的问题:从视频中转移学习有好处吗?这是增强型植被指数 培训前培训有很大的好处(大型视频数据集)动力学,就像以前一样在ImageNet上的预训练卷积神经网络中就有这样的好处许多任务。这演示了从其中一个转移学习数据集(动力学)到另一个数据集(UCF-101/HMDB-51)对于类似的任务(尽管对于不同的action类)。——如何然而,它是否有使用的好处仍然有待观察 为其他视频任务,如:seman- . .等,进行运动训练前视频分割,视频对象检测,或光学流计算。我们计划将I3D公开模型是根据官方动力学数据集发布的促进这方面的研究。当然,我们没有进行全面的解释 建筑的比例——例如我们没有使用动作管[11,17]或注意机制[20]到fo-把注意力集中在人类演员身上。最近的作品提出有想象力的方法来确定空间和瞬变电磁法双流中演员的孔径范围(检测)通过在体系结构中合并链接的对象检测 时间(24、26)。空间和时间的关系是a神秘的一个。最近有几篇很有创意的论文 为了捕捉这种关系,例如,通过学习框架,为动作排序函数类,并使用它们作为[9]的表示形式 动作和转换[36]或by之间的类比创建二维视觉快照帧序列[2]-这个idea与[3]的经典动作历史作品有关。它将这些模型也包括在我们的但是我们不能比较,因为时间和空间的缺乏。
 

猜你喜欢

转载自blog.csdn.net/nineship/article/details/82586913