论文地址:https://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf

Abstract

作者的研究结果有三个方面： 1)与二维相比，三维卷积网更适合时空特征学习；2)所有层具有3×3×3的小卷积核的同构架构是3D卷积网的最佳架构之一；3)学习到的特征，即C3D（卷积3D），使用一个简单的线性分类器，在4个不同的基准上优于最先进的方法，并在其他2个基准上与当前的最佳方法相比较。

1. Introduction

一个有效的视频理解算法有四个属性： (i)它需要是通用的，这样它就可以很好地表示不同类型的视频，同时具有区别性。例如，互联网视频可以是风景、自然场景、体育、电视节目、电影、宠物、食物等；（ii）网络结构提取的特征需要紧凑，也就是说具有很好的表达能力(类似于降维）：由于我们正在处理数百万个视频，一个紧凑的视频处理算法有助于处理、存储和检索更可伸缩的任务；（iii）它需要高效地计算，因为在现实世界系统中每分钟都要处理数以千计的视频；（iv）它必须简单实现。与其使用复杂的特征编码方法和分类器，一个好的视频特征提取结构应该与一个简单的模型（例如线性分类器）工作。

基于2D卷积的图像特征提取不能够提取视频中的时空信息，因此，作者提出了3D卷积，C3D是通用的、紧凑的、简单的和高效的。综上所述，作者在本文中的贡献如下：

实验表明，三维卷积深度网络是一种良好的特征学习机器，可以同时建模外观和运动。
根据经验发现，3×3×3卷积内核在有限的被探索的架构集中工作得最好。
在4个不同的任务和6个不同的基准测试上，其性能优于或接近目前的最佳方法（见表1）。它们也很紧凑，计算效率也很高。

3. Learning Features with 3D ConvNets

3.1. 3D convolution and pooling

作者认为三维卷积网络非常适合于时空特征学习。与二维卷积相比，由于三维卷积和三维池化操作，它能够更好地建模时间信息。在三维卷积网络中，卷积和池化操作是在时空上执行的，而在二维卷积网络中，它们只能在空间上执行。图1说明了差异，在一个图像上应用二维卷积将输出一个图像，在多个图像上应用二维卷积（将它们作为不同的通道[36]）也会得到一个图像。因此，二维卷积网络在每次卷积操作后都会丢失输入信号的时间信息。只有三维卷积保留了输入信号的时间信息，从而产生了一个输出体积。只有三维卷积保留了输入信号的时间信息，从而产生了一个输出体积。同样的现象也适用于二维和三维池化。

根据2D ConvNet [37]的研究结果，3×3卷积核的小接受域产生了最好的结果。因此，在架构搜索研究中，作者将空间接受野固定为3×3，并且只改变三维卷积核的时间深度。

Notations: 参考大小为c × l × h × w的视频序列，其中c是通道数，l是帧数的长度，h和w分别是帧的高度和宽度。我们也用d×k×k来表示三维卷积和池化核大小，其中d是核时间深度，k是核空间大小。

Common network settings: 网络设置以视频序列作为输入，并预测属于101个不同动作的类标签。所有的视频帧都被调整为128×171。这大约是UCF101帧分辨率的一半。视频被分割成不重叠的16帧片段，然后被用作网络的输入。输入尺寸为3×16×128×171。在训练期间，使用3×16×112×112的随机裁剪进行抖动。网络有5个卷积层和5个池化层（每个卷积层紧是一个池化层），2个全连接层和一个softmax损失层来预测动作标签。从1层到5层的5个卷积层的滤波器数分别为64、128、256、256、256。所有卷积核的大小都为d，其中d是核的时间深度。所有这些卷积层都应用了适当的填充（空间和时间）和步幅1，因此从这些卷积层的输入到输出的大小没有变化。所有的池化层都是最大池化，内核大小为2×2×2（第一层除外），步幅为1，这意味着输出信号的大小比输入信号减少了8倍。第一个池化层的内核大小为1×2×2，目的是不过早合并时间信号，并满足16帧的序列长度（例如，在完全崩溃时间信号之前，可以暂时合并因子2最多4倍）。这两个完全连接的层有2048个输出。使用30个视频序列的小批量从零开始训练网络，初始学习率为0.003。学习速率在每4个epoch后除以10。训练在16epoch后停止。

扫描二维码关注公众号，回复： 14532202 查看本文章

Varying network architectures: 只改变卷积层的内核时间深度，同时保持所有其他公共设置固定。使用两种类型的架构进行实验： 1)同质时间深度：所有卷积层都具有相同的核时间深度；2)不同的时间深度：核时间深度在层间发生变化。对于齐次设置，作者实验了4个核时间深度d分别为1、3、5和7的网络。我们将这些网络命名为depth-d，其中d是它们的均匀时间深度。请注意，depth-1网相当于在单独的帧上应用二维卷积。对于不同的时间深度设置，作者实验了两个时间深度分别从第一层到第5层增加3-3-5-5-7和减少7-5-5-3-3。所有这些网络在最后一个池化层都有相同大小的输出信号，因此对于全连接的层，它们有相同数量的参数。由于核时间深度的不同，它们的参数数量仅在卷积层上有所不同。与完全连接层中的数百万个参数相比，这些差异非常小。例如，上述任何两个时间深度差为2的网，彼此之间只有更少或更多的17K个参数。参数数量的最大差异是depth-1网和depth-7网，其中depth-7网多有51K个参数，小于每个网络1750万参数总数的0.3%。这表明网络的学习能力是可比性的，参数数量的差异不会影响架构搜索的结果。

3.2. Exploring kernel temporal depth

3×3×3是3D二维网络（根据我们的实验子集）的最佳核选择，3D二维在视频分类方面始终优于2D二维。

3.3. Spatiotemporal feature learning

Network architecture:卷积核为3×3×3的齐次设置是三维卷积网络的最佳选择。这一发现也与2D ConvNets [37]中的类似发现相一致。有了一个大规模的数据集，可以训练一个3×3×3内核尽可能受机器内存限制和计算能力。利用当前的GPU内存，作者设计的3D卷积网有8个卷积层，5个池化层，然后是两个完全连接的层，和一个softmax输出层。网络架构如图3所示。为简单起见，我们从现在开始称这个网络为C3D。所有的3D卷积滤波器都是3×3×3，步幅为1×1×1。所有3D池化层均为2×2×2，步幅为2×2×2，除了池1的内核大小为1×2×2，步幅为1×2×2，旨在在早期阶段保留时间信息的2×2×2。每个全连接的层有4096个输出单元。

Dataset. Sports-1M

Training: 训练是在Sports-1M进行的。由于Sports-1M有许多长视频，作者从每个训练视频中随机抽取5个2秒长的片段。片段的大小被调整为有一个帧大小为128×171。在训练中，将输入片段随机裁剪到16×112×112序列中进行空间和时间抖动。也以50%的概率水平翻转它们。训练由SGD完成，小批量大小为30个示例。初始学习率为0.003，每150K次迭代除以2次。优化在1.9M次迭代（约13个时代）时停止。除了从头开始训练的C3D网外，还尝试用在I380K上预先训练的模型对C3D网进行微调。

Sports-1M classifification results:

What does C3D learn? 作者使用了反卷积进行可视化。可以观察到，C3D从关注前几帧中的外观开始，并跟踪后续帧中的突出运动。图4可视化了两个C3D conv5b特征图的反卷积，其中最高的激活度投影到图像空间。在第一个例子中，该功能关注整个人，然后跟踪撑杆跳高性能在其他框架上的运动。类似地，在第二个例子中，它首先关注眼睛，然后跟踪化妆时眼睛周围发生的运动。因此，C3D不同于标准的2D卷积，它有选择性地关注运动和外观。

4. Action recognition

Dataset: UCF101

Classifification model: 提取C3D特征并将其输入到一个多类线性SVM中用于训练模型。使用3种不同的网络实验C3D特征提取：在I380K训练的C3D，在Sports-1M训练的C3D，在I380K训练和在Sports-1M训练的C3D进行微调。在多网设置中，作者将这些网络结构l2标准化的C3D特征提取连接起来。

Baselines:

Results:

C3D is compact: 为了评估C3D特征的紧凑性，作者使用PCA将特征投影到更低的维度，并使用线性SVM报告UCF101 [38]上投影特征的分类精度。对iDT [44]和图像[7]应用相同的过程，并比较图5中的结果。

作者通过可视化学习到的C3D特征来定性地评估我们学习到的三维特征，以验证它是否是一个很好的视频通用特征。我们从UCF101中随机选择100K片段，然后从Imagenet和C3D中提取fc6特征。然后使用t-SNE [43]将这些特征投影到二维空间中。

5. Action Similarity Labeling

Dataset: ASLAN

Features: 作者将视频分成16帧的片段，重叠为8帧。并提取C3D特征：每个剪辑的prob，fc7，fc6，池5。视频的特征是通过平均每种类型的特征的剪辑特征，然后进行L2归一化

Classifification model: 给定一对视频，作者计算了在[21]中提供的12个不同的距离。利用4种类型的特征，得到了每个视频对的48维（12×4 = 48）特征向量。由于这48个距离彼此之间不具有可比性，将它们独立地归一化，使每个维度的均值和单位方差为零。最后，训练一个线性SVM对这些48个模糊的特征向量将视频对分为相同或不同。

Results:

6. Scene and Object Recognition

Datasets: YUPENN

Classifification model: 对于这两个数据集，使用相同的特征提取和线性SVM设置来进行分类，并遵循这些数据集的作者所描述的相同的留一评估协议。对于对象数据集，标准的评估是基于帧的。然而，C3D需要一个长度为16帧的视频剪辑来提取该特征。在所有视频上滑动一个16帧的窗口来提取C3D特征。并为每个剪辑选择地面真实标签作为剪辑中最频繁出现的标签。如果一个剪辑中最常见的标签出现在8帧以下，认为它是没有对象的负剪辑，并在训练和测试中丢弃它。使用线性SVM训练和测试C3D特征，并报告目标识别精度。

Results:

C3D论文精读

Abstract

1. Introduction

3. Learning Features with 3D ConvNets

3.1. 3D convolution and pooling

3.2. Exploring kernel temporal depth

3.3. Spatiotemporal feature learning

4. Action recognition

5. Action Similarity Labeling

6. Scene and Object Recognition

7. Runtime Analysis

猜你喜欢