HVDetFusion文章翻译

摘要：在自动驾驶领域，3D目标检测是一个非常重要的感知模块。尽管目前的SOTA算法结合了相机和激光雷达传感器，但受激光雷达高昂价格的限制，目前主流的着陆方案是纯相机传感器或相机+雷达传感器。在本研究中，我们提出了一种新的检测算法HVDetFusion，这是一种多模态检测算法，不仅支持纯相机数据作为检测输入，还可以进行雷达数据和相机数据的融合输入。相机流不依赖于雷达数据的输入，从而解决了以前方法的缺点。在纯相机流中，我们修改了Bevdet4D的框架，以获得更好的感知和更高效的推理，并且该流具有整个3D检测输出。此外，为了融合雷达信号的优势，我们根据雷达传感器记录的定位信息和径向速度信息，利用不同目标位置的先验信息对原始雷达数据的误报信息进行滤波，以补充和融合原始相机数据产生的BEV特征，并且在融合训练的过程中进一步提高了效果。最后，HVDetFusion在具有挑战性的nuScenes测试集上实现了最先进的67.4%NDS，这是所有相机雷达3D物体探测器中最先进的。代码可在 https://github.com/HVXLab/HVDetFusion上获得。

1.介绍

3D检测技术在自动驾驶领域发展迅速。基于nuScenes数据集的检测任务也成为近年来检测挑战任务中最受欢迎的竞赛之一。在大多数自动驾驶场景中，多个传感器用于收集不同类型的数据，例如相机和测距传感器（如激光雷达和雷达）的组合。如何基于机器学习方法有效地处理信息，如何集成来自不同传感器的数据进行感知训练并提高准确性，也成为工作中最重要的部分之一。BEVFormer[9]使用基于变换器的编码器将多摄像机输入转换为BEV特征。Bevdet[4]从6台摄像机拍摄图像，在BEV网格中提取图像特征并重构6台摄像机的融合图像特征，对特征进行编码并预测鸟瞰图（BEV）中的目标，Bevdet4D[3]使用多个序列关键帧来改进Bevdet从3D空间域到时空域的检测，并利用时间信息通过查询和比较两个候选特征来访问时间线索，这可以大大降低速度误差，BevDepth[8]针对基于相机的鸟瞰图（BEV）3D目标检测的深度估计。相机感知深度估计模块用于提高深度预测能力。CenterFusion[15]使用中心点检测网络通过识别图像上的中心点来检测对象。同时，使用基于截头体的方法将雷达点云与相应的图像特征相关联。CRAFT[5]将图像建议与极坐标系中的雷达点相关联，然后使用连续的基于交叉注意力的特征融合层来融合相机和雷达数据集。

受自动驾驶中许多3D检测模型设计的启发，考虑到Bevdet模型架构的灵活性和效率，在实际场景中计算能力受限的情况下，可以将模型设计与实际需求合理结合，因此我们在Bevdet系列模型架构的基础上设计了两阶段模型结构，它支持多种数据类型的组合作为输入，称为HVDetFusion。在使用相机和雷达数据进行训练并不断调整模型结构后，HVDetFusion在具有挑战性的nuScenes测试集上实现了最新的67.4%NDS状态。在可解码分支结构中处理的不同类型的数据中，插入分支校正并优化主检测结构的预测内容的准确性。这使得我们的模型架构支持更多的场景，在综合考虑准确性和运行速度的前提下，更方便根据实际情况选择合适的模型解决方案。HVDetFusion结构将在第3节中规定，实验结果将在第4节中规定。

在此基础上，通过大量的实验，我们在模型的训练和测试过程中发现了一些有效的技巧。这些技巧也有助于我们的模型更好地捕捉和总结关键帧中的目标信息，从而使训练过程更加有效，这些技巧将在本文的消融实验部分详细说明。

2.相关工作

2.1 基于视觉的3D目标检测

3D目标检测是自动驾驶中的关键感知任务。FCOS3D[18]将2D目标检测问题扩展到3D目标检测问题，利用摄像机图像特征中目标的空间相关性来检测目标并取得了良好的效果，但预测精度需要在目标的平移、速度和方向方面进一步提高。PGD[19]提出了几何关系图，以便于3D目标检测的深度估计，它希望通过使用深度作为突破点来提高最终结果。类似地，DD3D[17]指出，深度预训练可以改善3D检测。BEVDepth[8]表明，辅助像素深度监督提高了性能。如何有效地融合多传感器数据也是三维探测任务中的重要组成部分。Bevdet[4]提取图像特征，在BEV网格中重构和融合多个相机的图像特征，并在BEV空间中对特征进行编码，Bevdet4D[3]是Bevdet[3]的时间扩展。

2.2 基于融合的方法

为了充分利用现有数据以更高的精度检测三维物体，将有更多的传感器投入使用，如何有效地融合相机图像和测距信息已成为一个非常关键和热门的研究课题。更常见的想法是试图通过将雷达点投影到图像上来改进深度估计[10]。[14]学习从雷达回波到像素的映射，随后使用深度完成方法。Centerfusion[15]使用一种新的基于截头体的方法将雷达检测与相机图像中的点相关联。在BEV视角下融合相机图像和点特征图也是一个不错的选择，BEVFusion[13]统一了共享鸟瞰图（BEV）表示空间中的多模态特征，并通过元素串联融合特征图，UVTR[7]在没有高度压缩的情况下保留体素空间，以缓解语义模糊并实现空间连接。跨模态交互可以在点云中获得有效的几何感知表达式，并在图像中获得上下文丰富的特征。CRN[6]将透视图图像特征转换为具有有效雷达点的BEV。此外，它使用多模态可变形注意力模块来解决空间错位问题。此外，TransCAR[16]使用一组稀疏的3D目标查询来索引相机图像中的2D特征，然后应用变换器解码器来学习雷达特征和视觉更新查询之间的相互作用。CRAFT[5]在极坐标系中处理相机图像和雷达点之间的关联，然后使用连续的交叉注意力进行融合。3D-CVF[23]使用跨视图空间特征融合策略。应用门控特征融合网络，使用空间注意力图按区域适当地混合功能特征和激光雷达特征。CMT[21]在没有视图变换的情况下将3D点编码为多模态特征，并直接输出精确的3D边界框。Pai3d[11]从图像中提取实例级语义信息，然后用于增强3D检测网络中的每个激光雷达点，以提高检测性能。SparseFusion[20]通过解开目标表示，将候选相机转换到激光雷达坐标空间。然后将三维空间中的多模态候选者与自注意模块进行融合。TransFusion[1]使用软关联机制来处理较差的图像条件。它的解码器使用一组稀疏的目标查询来预测来自激光雷达点云的初始边界框，并自适应地将目标查询与有用的图像特征相融合。DeepInteraction[22]使用多模态表示交互编码器和多模态预测交互解码器来维护和学习单个每模态表示。得益于上述相关工作，HVDetFusion模型中的点云处理分支将特征提取的图像和滤波后的点云数据融合在BEV空间中，可以提高融合效率，消除冗余特征的影响。

3.HVDetFusion方法

我们设计了一个基于Bevdet4D的模型结构，称为HVDetFusion。在原有架构的基础上，我们继续优化图像特征的融合过程。同时，我们设计了解耦融合分支，用于处理雷达数据和提取雷达点云。有效的空间位置信息和径向速度信息有助于3D检测模块预测目标位置、速度和方向的过程，提高了各分量的预测精度。整个工作流程如图1所示，包括数据采集、数据处理、特征融合和目标检测。

图1.一幅阐明雷达数据滤波与融合过程的图像

如图所示，我们的模型支持三种不同的数据组合方法作为输入。选项1的输入数据是由具有6个不同视角的相机收集的图像数据，而选项2的输入数据则是使用正视视角的相机。对于收集的图像数据，选项3的输入数据是指在选项1或选项2的基础上添加雷达点云。在选项1和选项2中，我们处理图像数据并进行数据扩充，并转换与相机参数相对应的图像。将它们馈送到图像主干模型结构以获得图像特征图。图像特征图的指定部分用作DepthNet的输入，最后图像特征图和DepthNet输出的另一部分通过View Transformer传输到BEV网格。此时，多摄像头采集的不同视角的图像已经融合。在训练过程中，还利用激光雷达点云坐标的准确性来监督和调整BEV特征，最终通过3D探测头获得预测分量。在选项3中，我们过滤雷达点云，并将保留的有效点云与3D探测头的输出特征融合。融合后获得的最终特征将通过二次检测头获得校正后的预测分量。

3.1 数据集介绍

为了进一步提高模型的检测效果，我们在相机采集数据的基础上，对雷达传感器采集的数据进行融合，对整体预测结果进行补充和校正，以弥补相机传感器采集数据的投影特性造成深度信息丢失的缺陷。我们使用包含140万次雷达扫描的完整NuScenes数据集作为训练和测试融合的一部分。雷达扫描来自车内的5个雷达传感器。传感器的监测范围在200-300米之间，通过多普勒效应测量物体的速度。然而，雷达传感器的定位比激光雷达传感器更偏向，记录的雷达点也更稀疏[2]。为了防止误报噪声信息对融合后模型的训练结果产生负面影响，有必要对雷达点云进行滤波，并保留有效点云，以参与后续的融合操作。需要注意的是，雷达点云中包含的速度信息vx和vy是物体在当前坐标系中的瞬时径向速度的分量，该变量与车辆的实际速度之间会有一定的差异[15]。此外，由原始雷达传感器记录的速度信息包括原始速度信息和补偿的速度信息。我们使用补偿后的速度信息作为雷达传感器收集的有效值，参与后续和融合过程。

3.2 雷达关联

我们使用Bevdet4D作为检测任务的基本结构，该任务使用6台相机收集的图像数据集作为训练和预测的输入。为了达到理想的融合效果，在原来用于处理纯相机数据集的网络架构上，我们考虑增加一个用于处理雷达数据集的辅助分支架构，该架构对雷达数据进行处理和滤波，以获得有效的深度信息和速度信息，然后与检测主分支进行特征融合。如上所述，雷达点云可以弥补相机数据集采集过程中深度信息的不足。为了达到理想的融合训练效果，在数据处理阶段，需要确保雷达点云中每个物体的位置信息能够正确匹配图像特征的相应区域。在此基础上，将雷达点云中记录的位置和速度信息与图像特征进行融合。由于雷达传感器的特性，场景中的许多物体都会被记录为雷达点云的一部分。这些对象不仅包括我们感兴趣的部分，还包括其他杂乱和无效的部分。在融合之前，我们可以利用图像特征的分布来获得目标位置的先验，利用位置先验对雷达点云进行滤波，并对位置匹配成功的点云进行下一次融合操作。

图2展示了利用BEV空间中物体的位置先验信息进行滤波并获得有效雷达点云的过程。表示不同类别和不同颜色的对象的位置先验的3D框用于区分不同类别。我们用红点表示原始雷达点，用绿点表示匹配点。匹配成功的点云将进入下一阶段的匹配和融合过程。

图2.演示使用物体的位置先验信息过滤雷达点。

我们将点云位置信息处理到BEV（鸟瞰图）透视图下的2D边界框中。为了确保雷达点在融合过程中保持较高的位置精度，如果存在两个边界框重叠的情况，则将雷达点投影生成的边界框的中线位置视为两个边界盒重叠区域的新边界。然后，这些边界框的位置信息对应于BEV视角下雷达3D点云的投影位置。同时，我们使用通过图像特征获得的每个类别下物体的位置和大小的回归结果作为位置先验，生成一定意义上的边界框地面实况，然后计算雷达点云生成的二维边界框与每个关键帧上的地面实况之间的IOU分数。此外，我们将超参数α预设为2D边界框的大小缩放因子，将超参数β预设为阈值，以控制匹配的难度。通过减少β或增加α，每个目标区域可以包含更多的雷达点云信息。当超参数设置合理时，可以滤除位置偏差较大的噪声点。然而，在融合过程中，有效雷达数据的比例同时增加。这两个方面对于提高融合预测的鲁棒性都很重要。

在获得滤波后的雷达二维边界框后，我们将每个二维边界框对应的点云的位置和速度信息处理成雷达特征图的张量，并将其分配给新生成的雷达特征图中的相应区域，这些区域与已匹配的边界框一一对应。雷达特征图与BEV编码模块计算的特征图连接，融合的特征被用作第二回归头的输入，以校正每类任务的速度、旋转和位置回归的偏差。第二回归头的任务是进一步提高主回归头预测的预测位置、速度和旋转角度的准确性。在训练过程中，融合的雷达特征将比较原始特征图中包含的速度和位置。信息得到有效整合，在迭代过程中不断削弱雷达点云匹配过程中仍然存在的冗余和有偏信息的影响，最终获得更好的预测结果。在雷达有效点匹配过程中，为了提高匹配效率，我们采用了两阶段匹配方法，包括中心点位置匹配和计算雷达二维边界框与地面实况之间的IOU匹配分数。在匹配之前，每个类别任务下的地面实况的位置可能是多余的，我们需要对地面实况进行过滤，以获得不重叠的有效标签边界框。然后将雷达点云直接投影到包含BEV视角下地面实况位置信息的2D网格中，并将投影的点记录在标签边界框区域中作为有效点，点云中与过滤后的有效点一一对应的部分将参与下一阶段的匹配过程。通过标签边界框的冗余滤波处理和投影点的匹配处理可以有效地在2D平面上拾取有效的地面实况框区域和位置偏移较小的候选雷达点云，当雷达点生成的边界框或主回归头生成的标签边界框的大小不稳定时，有效地减少了匹配时间，避免了对匹配精度的影响。

在图3中，它显示了雷达数据处理、滤波和融合计算的整个过程。雷达数据需要在BEV视角下被处理成点云格式，然后由多类别的主3D探测头获得的热图中的位置先验信息对雷达点云进行过滤，然后获得的有效点云在BEV透视下生成2D边界框，与热图获得的参考有效区域进行IOU匹配，最后，将匹配的位置信息用于生成与雷达位置坐标和速度信息相关的张量，并将其与原始特征图融合，在下一步进行预测。

图3.一幅阐明雷达数据滤波与融合过程的图像

需要注意的是，在使用雷达点云作为额外数据集来提高预测效果的方式中，需要确保匹配的雷达点云位置没有偏差。当我们在训练过程中使用主回归头预测的位置时，来自预测的位置先验在整个滤波过程中起着重要作用，因此需要预先对主回归头的位置预测部分进行迭代训练，以确保主回归头位置预测与最终校准的地面实况的分布收敛。同时，保证了雷达融合方法在最终效果下的收敛稳定性。

4.实施细节

4.1 训练设置

关于我们训练期间的超参数和骨干设置，请参见表1。当使用更大的模型或BEV特征分辨率更大时，网络倾向于发散，这可以通过增加权重衰减在一定程度上得到缓解。此外，如果没有具体说明，我们的实验在训练过程中使用了过去的8帧和未来的8帧。

表1.HVDetFusion不同骨干的训练设置

当使用配置1进行训练时，我们使用与Bevdet相同的主干，并将BEV大小设置为128*128，BEV通道为80，该配置主要用于小分辨率图像（例如256*704）的训练和测试过程，它也用作整个优化过程中的基线配置。在此基础上，我们不断优化训练和测试过程的每个阶段，直到获得更理想的评估分数。配置2在配置1的基础上进行了修改，用于骨干网和BEV网格的尺寸自适应实验，最后我们提出了配置3，用于640*1600分辨率图像的训练和评估过程。此时，选择较大的参数作为BEV尺寸和BEV通道。充分保留大分辨率图像的细节信息，提高模型预测的准确性。

4.2 融合过程

我们使用来自HVDetFusion网络中主回归头的位置回归值作为过滤雷达点云的假阳性特征之前的位置，该网络训练了6-8个时期。在此期间，位置回归值已经非常接近分布中的真实值。在训练和测试过程中，我们使用物理尺寸中的51.2m作为有效深度值，在车辆坐标系中挑选出符合距离要求的雷达点。BEV透视图中有效网格区域的行数和列数将与BEV编码器模块计算的特征图的分辨率相同。分辨率从128*128增加到256*256以获得更高的预测精度。雷达点生成的二维边界框使用物理尺寸中的1m作为长度和宽度的参考距离。由于在雷达数据集的采集过程中，行人和其他物体的精度相对较差，我们取消了行人和交通锥的雷达点融合过程。使用CenterHead作为融合特征的回归头，我们考虑使用雷达数据集中的坐标x、坐标y、速度分量vx和速度分量vy作为有效信息，生成多通道矩阵作为雷达特征图，并在后续阶段与图像特征图融合在一起。为了避免单个关键帧中雷达点云的分布过于稀疏，无法对融合效果产生积极影响，在训练过程中，每个关键帧中的图像都对应于雷达点云，它来自当前帧，连续前两帧作为补充。

5.基准结果

5.1 nuScenes验证集上的结果

为了全面比较以前最先进的3D检测方法，我们在表2中报告了nuScenes val集的结果。除了相机和雷达的模态外，还列出了仅相机的模态。为了进行公平的比较，我们使用ResNet50作为我们网络的主干，用于进行比较。与其他模型相比，使用256×704的较小分辨率，我们的方法也超过了仅相机、相机和雷达模态中的大多数方法，除了我们的方法比之前排名第一的CRN的NDS低0.3%（HVDetFusion NDS 55.7%vs CRN NDS 56%）。表2最后一行中用粗体标记的数据是使用HVDetFusion进行评估的结果。与列出的大多数检测方法相比，我们可以在较小的分辨率下获得相对较高的mAP分数。这是NDS改进的主要因素。在每个物体属性的显示数据中，mAVE显著降低，这表明使用HVDetFusion可以在预测速度相关内容方面获得更理想的结果，这可能得益于多帧融合和雷达数据的添加，具体内容将在消融实验中显示。

表2.nuScenes val集上不同方法的比较。

5.2 nuScenes测试集的结果

对于nuScenes测试集，我们在train和val集上训练HVDetFusion。采用了具有测试时间增加的单个模型。我们在表3中报告了测试集的比较结果。HVDetFusion在基于nuScenes相机雷达的3D物体检测排行榜上以67.4%的NDS得分排名第一，NDS比之前的最佳方法CRN高5%，mAP比CRN高3.4%。我们的方法的性能优于大多数仅基于相机的方法，如FCOS3D、BEVFormerOpt、BEVDet Gamma和VideoBEV。这也表明，只要雷达使用得当，就有助于提高相机的感知效果。

表3.nuScenes测试集的比较

表4进一步阐明了我们提出的模型对各种类别的检测任务的性能影响。表中的粗体标记是每个类别中检测效果最好的分数。该表中的数据是官方列表发布的测试结果，其中C表示相机数据集，R表示雷达数据集，每个列类别中的数据表示当前类别下相应检测结果的平均精度。我们提出的检测结构借鉴了Bevdet网络系列的图像处理方法。经过我们的优化，多个类别的检测指标提高了3%-6%。尤其是在卡车、公共汽车和摩托车类别中，改进更为明显。与性能更好的BevDet Gamma检测网络相比，卡车类和公共汽车类的得分分别提高了4.7%和5.8%。摩托车类的得分提高了5.6%。与同时使用摄像头数据集和雷达数据集的检测方法相比，它在多个类别的检测效果方面具有一定的优势。例如，与检测效果更好的CRN相比，对于目标大小相对较大的类别，这两种方法无法区分。然而，在空间维度相对较小的类别中，我们的方法具有很大的优势，尤其是行人、交通锥和障碍物类别，我们的评估指标分别比相应类别高8.6%、7.8%和12.1%。通过对每个类别中每个检测指标的比较，我们可以清楚地表明我们提出的方法的有效性。

表4.nuScenes数据集上3D对象检测的每类性能比较。

6.消融研究

为了探讨多种实验因素对检测效果的影响，我们采用控制变量的实验方法对HVDetFusion网络进行了消融实验。实验结果可参考表5中的总体评价指标。在消融实验中，我们统一使用nuScenes官方提供的验证数据集作为评估对象。我们使用以ResNet50为基线的HVDetFusion网络来探索主干结构、前一帧和未来帧的数量、是否使用预训练的模型、使用的图像分辨率和其他因素对检测结果的影响。

表5.nuScenes验证集的整体消融研究。（PFN：过去的帧数，FFN：未来的帧数，PT：使用预训练的模型，IR：图像分辨率）

表5中用粗体标记的部分是在不同因素的比较下在检测过程中获得的更好的指标。通过比较表中的第2行和第（3&4）行，可以发现使用不同的主干结构获得的检测结果存在差异，使用ConvNeXt Base或Internimage Base结构可以获得更好的检测结果。在我们的检测网络中，如第（1和2）行所示，我们通过添加8个未来帧实现了实质性的改进。与基线相比，NDS从53.3%提高到55.7%，提高了2.4%。然后，我们使用更先进的主干、ConvNeXt库和Internetimage库进行实验。ConvNeXtBase网络的NDS增加了2.6%，与ConvNeXt Base相比，Internetimage Base网络的NDS也略有改善，NDS达到58.7%。在（5和6）行中，我们比较并测试了不同预训练模型的效果。COCO数据集预训练模型具有较好的效果。与使用InternetImageBase作为主干的基线相比，NDS提高了0.5%。然后我们测试了分辨率对模型的影响。从第（5和7）行可以看出，在NDS指示器上，640x1600的分辨率比256x704的分辨率高5.4%。最后，结合我们的融合方法，我们介绍了雷达信号，NDS达到65.2%，这直接表明了雷达融合的有效性。

7.结论

通俗来讲，我们提出了一种新的检测算法HVDetFusion，这是一种多模态检测算法，不仅支持纯相机数据作为检测输入，还可以进行雷达数据和相机数据的融合输入。在处理相机数据的阶段，我们使用了一种基于Bevdet4D的检测方法，并对其结构进行了优化和改进。该方法可以有效地提取关键帧中一个或多个相机传感器的数据，并将其集成到BEV空间中，最终获得良好的检测结果。在此基础上，我们可以考虑同时对雷达传感器数据进行积分，利用不同目标位置的先验信息来过滤原始雷达数据的误报信息，并根据雷达传感器记录的定位信息和径向速度信息来补充和融合原始相机数据产生的BEV特征，在融合训练的过程中，效果得到了进一步的提高。

HVDetFusion文章翻译

猜你喜欢