当我们在讨论多模态融合时？我们究竟在讨论什么？最新多源融合综述！

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

今天自动驾驶之心很荣幸邀请到Xi zhu来分享自动驾驶最新的多源传感器融合综述！如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心【多传感器融合】技术交流群

论文作者 | Xi zhu

编辑 | 自动驾驶之心

很荣幸来分享我们的多源数据融合综述~这篇综述文章所关注的核心问题是自动驾驶系统中的多源数据融合技术。多源数据融合对自动驾驶系统的环境感知能力至关重要。由于不同类型的传感器都有自己的优势和劣势,单一的传感器系统难以进行完整和精确的环境感知。为了发挥各类传感器的互补优势,需要研发将多源异构数据有效地融合在一起的方法。随着深度学习技术的发展,基于深度学习的多源数据融合方法为这一问题带来了巨大契机,可以实现更优的融合效果。但是目前这类方法仍存在一些关键性问题和局限,还需要进一步的研究来找到更理想的融合方案。考虑到多源数据融合对自动驾驶系统的环境感知和决策能力有着重大影响,它已成为实现高级自动驾驶的关键技术之一。而现有的相关研究还比较分散,没有形成系统的归纳和总结。为此,这篇综述文章试图通过全面回顾现有融合技术,建立数据融合的分类体系,讨论存在的问题,以及提出未来发展方向,为自动驾驶领域的数据融合研究提供有价值的指导。

这篇综述论文以“什么、何时以及如何融合数据”为切入角度,全面系统地探讨了自动驾驶系统中的多源数据融合问题。在“融合什么”方面,论文根据多视角、多模态和多时段三个维度,构建了二级数据融合分类体系,将融合内容划分为七大类,并进一步讨论了多维度融合的顺序范式。在“何时融合”方面,论文根据数据抽象程度将融合分为数据级、特征级、决策级和多级四种方式。在“如何融合”方面,论文概括总结了投影、拼接、相加等常见的数学运算融合操作及其优劣。之后,论文遵循这一体系,全面回顾了自动驾驶感知中基于深度学习的摄像头、激光雷达和毫米波雷达的数据融合技术文献。在总结分析现有方法局限性的基础上,论文提出了理想的数据融合方法应具备的可移植性、可扩展性和自适应性等特征。最后以特斯拉自动驾驶系统为例,说明了数据融合在实际中的应用。这篇论文从多个角度深入全面地梳理和探讨了自动驾驶领域的数据融合问题,对指导未来研究具有重要价值。而了解如何展开多源数据融合的工作，我门要首先明确多源数据融合面临的关键问题是什么，其可以归结为“什么数据进行融合”“如何进行融合”以及“何时进行融合”三个方面:

什么数据进行融合:指明确数据融合的内容,比如多视角融合、多模态融合还是多时段融合等。
如何进行融合:指选择何种数学运算来实现数据的融合,比如拼接、加法等。不同运算有各自的优缺点。
何时进行融合:指在数据处理流程的何时阶段进行融合,比如原始数据级融合、特征级融合或者决策级融合等。不同时机的融合效果也不相同。

明确以上三个问题,可以针对不同的应用场景和需求设计出最优的数据融合方案。但找到一种通用的、可扩展的融合框架仍然是一个难点。此外,当前多数融合算法过于依赖传感器间的准确变换,这也是需要解决的问题之一。要设计出可靠和高效的数据融合方案,需要对这三个关键问题有深入的理解,这也是本文的核心内容。

SENSING MODALITIES AND PRE-PROCESSING

这一节讨论了在感知中使用的传感器被分成两组的分类：外感传感器和本体感传感器。外感传感器主动收集外部环境的数据，包括相机、LiDAR和，而本体感传感器则捕捉车辆的内部状态和系统的动态测量。这些传感器通常一起用于定位和定位。然而，由于它们的特性不同，从不同坐标系中集成数据可能会很具有挑战性。预处理方法被用于将原始数据转换成适当的表示形式。本文重点讨论了三种外感传感器的特性和预处理方法，并在表格中总结了它们的优缺点。

如上表所示，表格比较了相机、LiDAR和雷达传感器的不同特征。它们被列在表格的左侧，而其特征则被列在表格的顶部。表格中的特征包括数据格式、分辨率、水平视场角、几何形状、纹理、恶劣天气下的表现、光照不足/黑暗环境下的表现、速度和成本等。每个特征都被用“++”、“+”或“-”符号表示其相对强、中、弱的能力，以便进行比较。通过这个表格，读者可以更好地了解各种传感器的优缺点和适用范围，以便在实际应用中做出最佳选择。

camera

本节介绍了相机的相关方法。相机是一种光学设备，能够捕捉2D视觉图像。相机可以生成灰度和彩色图像，其中大多数现代相机默认生成彩色图像。相机可以用针孔模型进行建模，每个点在三维空间中按照一个仿射变换映射到像素上。它们可以用由内参矩阵和外参矩阵确定的两个仿射变换来描述。RGB相机是最常见的光学传感器，可以无源地接收波长在400到700纳米之间的可见光并输出彩色图像。它们通常具有非常高的空间和时间分辨率，能够捕捉颜色和纹理信息，但在光线条件和视线可见性方面存在局限性。在ADS中，集成相机数据可表示为2D或3D格式，其中像素表示存储像素特征在2D图像平面上，而点或体素表示则考虑深度信息，并将每个像素投影到3D空间中。

而Pixel representation和Point or voxel representation是两种不同的相机数据表示方式。Pixel representation（像素表示）是将像素特征存储在2D图像平面上，每个像素有多个通道来描述其性质。整个图像被存储在一个3D矩阵中，其维度为。通常，RGB原始图像有三个彩色通道，但其他相机可能有不同的通道，如深度、灰度、红外或闸门通道。Point or voxel representation（点或体素表示）则考虑深度信息，通过将每个像素投影到3D空间中来表示相机数据。这些3D点可以存储为点云或体素网格。点云为每个点分配一个浮点数3D坐标，导致一个矩阵的维度为，其中表示像素的数量，表示通道的数量。体素网格将空间划分为具有维度的网格，并将点放入这些网格中。

LiDAR

LiDAR（Light Detection and Ranging，光学雷达）是一种常用于自动驾驶中的测距技术。它的工作原理是通过估算发出的激光脉冲和目标反射信号之间的时间间隔，利用时间间隔和光速计算出距离。LiDAR有三种类型：1D、2D和3D LiDAR，它们可以收集不同数量的环境信息。1D LiDAR只能提供距离测量，2D LiDAR可以通过水平旋转一定角度来获得目标在X-Y坐标水平平面上的空间信息，而3D LiDAR通过垂直发射多束激光扩展垂直视野，将收集到的数据表示为3D X-Y-Z坐标系。在自动驾驶中，通常使用3D LiDAR传感器，但高价格是其实施的一个问题。

使用LiDAR传感器生成数据的过程涉及使用光束从周围环境中的物体表面中提取样本。这种激光发射的工作原理使得LiDAR传感器能够在低能见度条件下工作，但也使得它们容易受到外部气候条件的影响，如雨、雾、雪和尘土环境。此外，目标的颜色也会影响LiDAR传感器的性能，较暗的物体吸收光线，比较浅色的物体反射光线。

与相机图像不同，3D LiDAR测量是一组无序的不规则数据点，称为3D结构中的点云。为了适应不同的深度学习模型的输入格式，点云可以使用预处理方法转换为几种不同的表示形式。需要注意的是，相对于图像数据，LiDAR数据更加稀疏。

从LiDAR传感器获得的3D点云可以使用点处理深度学习网络（例如PointNet，PointNet ++，PointCNN和KPConv）进行处理，无需格式转换。点云可以与类似的点格式数据（如其他LiDAR点云）集成。尽管点云保留了原始信息并可能提供更大的接受域，但点云的体积可能很大，需要高计算能力处理。此外，它很难与图像等其他数据格式集成。因此，发展了具有附加预处理方法的表示形式，并得到了快速进展。Voxels是通过将整个3D空间划分为小的规则3D网格并基于几何将原始点划分到相应的网格中而生成的。这种网格化将不规则点转换为规则的体素表示，可以将原始LiDAR点下采样以减少输入体积。事实上，可以通过改变网格大小来调整体素的体积和分辨率。较大的网格会导致更多的信息损失，而较小的网格可能仍然会给计算带来负担。可以使用几种3D卷积方法来处理体素并提取特征，例如3D ShapeNet，VoxelNet和VoxNet。

LiDAR点的像素或视图表示是通过投影将3D点云转换为2D图像视图的方法。BEV（鸟瞰图）和范围视图（也称为透视视图）是可以从点云转换为不同2D视图平面的两种常见类型的视图。像素表示可以利用现有的成熟的CNN系列图像处理方法，尽管在投影过程中可能会丢失一些信息。此外，像素表示的输入体积比点云还要小，可以提高计算效率。在自动驾驶中，通常使用的LiDAR数据表示形式是BEV或范围视图。BEV是一种俯视图，将3D点云投影到一个水平平面上，提供了一种紧凑的表示形式，可以直接用于训练和推理。范围视图是一个类似于车辆摄像头的前视图，它将3D点云投影到一个垂直平面上，使得模型可以更好地捕捉物体的高度信息。总的来说，LiDAR数据的表示形式取决于具体的应用场景和深度学习模型的要求。点云、体素和像素表示都有其优缺点，需要根据具体情况选择。

Millimeter wave radar

Millimeter wave radar (MMW-radar)是一种利用毫米波辐射和散射反射来估计目标距离信息的技术，也被称为雷达。它是一种常用于自动驾驶中的测距传感器，可以分为短距离、中距离和长距离雷达。相比于受外部条件影响较大的LiDAR传感器和摄像头，雷达传感器在极端天气或昏暗光照条件下更为稳定。此外，雷达传感器具有准确检测动态目标速度的能力，这对于自动驾驶场景中的感知任务非常重要。然而，雷达也有一些缺点。与相机相比，雷达缺乏纹理或语义信息。与LiDAR传感器相比，雷达的角度分辨率较低，因此不适合进行对象识别，并且可能在区分静态和静止物体时出现问题。此外，无用的回波噪声可能会导致雷达系统的误检和性能问题。

根据文献\引文，雷达的数据格式可以根据不同的预处理阶段分为原始数据、聚类层数据和对象层数据。雷达的原始输出是时间频谱图的形式。为了提高其效用，通常需要使用信号处理方法。在自动驾驶应用中更常用的雷达数据格式是经过聚类算法处理后得到的聚类层，以及经过过滤和跟踪后得到的对象层。与原始的原始数据相比，后两种格式提供了更稀疏和较少噪声的信息。

雷达信号的两种不同表示方法可以在自动驾驶系统相关研究中找到。一种是基于点的表示方法，它将雷达数据表示为点云进行处理。然而雷达点云的特性与LiDAR点云不同，因此直接使用LiDAR模型处理雷达点可能会出现问题。另一种表示方法是基于地图的方法，它将雷达数据在多个时间戳上积累，并生成雷达网格鸟瞰图（BEV）地图。由于网格图解决了雷达数据稀疏性的问题，因此可以使用图像处理网络，例如卷积神经网络（CNN）提取特征并进行静态环境分类。

DATA INTEGRATION: WHAT TO INTEGRATE

Multi-frame integration

多帧数据集成（Multi-frame integration）是一种利用时间序列数据进行环境感知的方法。它可以采用多个时间戳的数据，将它们集成成一个整体，以提高环境感知的准确性。多帧数据集成广泛应用于计算机视觉、机器人领域等。

多帧数据集成可以分为两类：基于图像的方法和基于点云的方法。基于图像的方法通常使用相机图像序列，而基于点云的方法通常使用LiDAR点云序列。

在基于图像的方法中，常见的多帧数据集成方法包括：

特征图序列：在每个图像中提取特征图，然后在不同帧之间进行关联或融合，例如在目标跟踪、物体检测等任务中。
图像对或从图像对获得的处理信息序列：使用前一帧和当前帧的图像对进行自监督或知识蒸馏等任务，例如在单目深度估计、行人重识别等任务中。

在基于点云的方法中，常见的多帧数据集成方法包括：

点云序列：将多个点云组合成一个点云，然后对其进行处理，例如在3D目标检测和分割中。
点云特征序列：从每个点云中提取特征，然后将特征序列输入到网络中进行多帧集成，例如在多帧物体检测和跟踪中。

总之，多帧数据集成是一种有效的环境感知方法，可以从时间序列中获得更多的信息并提高感知的准确性。不同的多帧数据集成方法可以根据任务需要进行选择。

Multi-view multi-modality integration

Multi-view multi-modality integration是一种将来自多个传感器的不同模态和不同视角的数据进行融合，以提高场景的感知和理解能力的技术。在计算机视觉和机器学习领域，这种技术备受关注，因为它可以提供比单视角或单模态方法更准确和全面的环境信息。

在Multi-view multi-modality integration中，每个传感器模态的数据首先被独立处理，提取特征和信息，如物体检测、深度估计或语义分割。然后，来自多个视角和模态的信息被结合起来，以创建一个更完整的场景表示。这可以通过使用各种融合方法来实现，如特征级融合、决策级融合或传感器级融合。

例如，在自动驾驶中，可以将来自多种传感器的数据，如相机、LiDAR和雷达，结合在一起，以获得更准确和全面的环境理解。例如，LiDAR可以提供准确的深度信息，相机可以提供高分辨率图像和颜色信息，雷达可以提供物体的速度和方向信息，这些信息可以补充LiDAR和相机提供的信息。

Multi-view multi-modality integration也被用于其他领域，如机器人、增强现实和医学成像。例如，在机器人领域，结合来自多个传感器的数据可以帮助机器人在复杂环境中导航和更高效地执行任务。在医学成像中，结合来自多种模态的数据，如MRI和CT扫描，可以提供更准确的诊断和治疗方案。

总之，Multi-view multi-modality integration是一个重要的研究领域，在多个领域中都有广泛的应用潜力。

Multi-view multi-frame integration

Multi-view multi-frame integration是一种将多个视角和多个时间帧的信息进行融合的技术。在计算机视觉和机器学习领域，多视角和多帧的数据通常可以提供更多的信息以增强对场景的理解和推理能力。传统的多视角融合技术主要集中在将来自不同摄像机的图像信息进行融合，而多帧融合则主要关注如何将来自同一摄像机的连续帧信息进行融合。在近年来的研究中，越来越多的工作将多视角和多帧信息结合起来，以提高感知和推理性能。

Multi-view multi-frame integration的应用非常广泛，例如三维物体检测、跟踪、重建以及SLAM等领域，都需要将多个视角和多个时间帧的信息进行融合。在实际应用中，多视角和多帧的数据通常来自不同的传感器，例如相机、LiDAR、雷达等，因此如何将不同传感器的数据进行融合也是一个重要的问题。目前，关于多传感器的多视角多帧融合的研究还比较有限，但是随着多传感器技术的发展，这个问题也变得越来越重要。

DATA INTEGRATION: WHEN TO INTEGRATE

数据集成是将来自不同来源的数据组合起来，提供一个统一的数据视图的过程。其目标是创建一个综合视图，比单独的数据源更具信息性和实用性。集成数据有几种方法，可以广泛地分类为三类：手动集成、应用程序级集成和数据级集成。

手动集成：这种方法涉及手动组合来自不同来源的数据。这可能是一个耗时的过程，并容易出错。但是，在自动集成不可能由于数据复杂性或缺乏适当的集成工具的情况下，这种方法可能是必要的。

应用程序级集成：这种方法涉及使用中间件或消息代理在应用程序级别集成数据。中间件是连接不同应用程序并使它们彼此通信的软件。消息代理是一种在不同应用程序之间充当中介并使它们交换消息的软件。当数据源是异构的且需要实时集成时，这种方法非常有用。

数据级集成：这种方法涉及使用一个通用数据模型在数据级别集成数据。在这种方法中，先将来自不同来源的数据转换为通用格式，然后合并到一个单一的数据库中。当数据源是类似的且具有共同的结构时，这种方法非常有用。数据级集成可以进一步分为两个子类：

ETL（提取、转换、加载）：ETL是一种过程，涉及从不同来源提取数据，将其转换为通用格式，然后加载到目标数据库中。ETL通常用于数据仓库和商业智能应用程序。

ELT（提取、加载、转换）：ELT是一种过程，涉及从不同来源提取数据，将其加载到目标数据库中，然后将其转换为通用格式。ELT通常用于大数据和分析应用程序。

总之，数据集成是数据管理中的关键过程，使组织能够创建一个综合视图，可用于分析和决策。集成方法的选择取决于数据源的特性、数据的复杂性和集成要求。

讨论

这篇综述论文对自动驾驶领域的多源数据融合技术进行了比较全面和系统的归纳,具有以下几点优点:

提出了新的三维分类体系,可以很好地将数据融合技术进行分类,使得整体技术体系更清晰。
不仅讨论了“何时融合”,还讨论了“如何融合”中的具体运算方法及优缺点,进行更深入的分析。
以Tesla自动驾驶系统为例,说明了理论框架在实际中的应用情况。
在总结现有方法局限性的基础上,提出了对理想数据融合方法的设计建议,指出了未来的研究方向。
全面涵盖了图像、激光雷达和毫米波雷达三种主要传感器的数据融合技术。

但也存在一些不足:

更多关注技术层面的归纳,对融合功能和效果的分析较少。
对不同任务的具体数据集和评估指标讨论不多。
缺少对商用自动驾驶系统的数据融合方案的分析。
可以拓展对其他传感器(如IMU等)的数据融合技术的讨论。
可以补充更多最新研究进展,现有引用偏早。
整体框架可以更加严谨严密,避免重复讨论和层级混乱。

总体来说,这篇综述对自动驾驶多源数据融合研究具有很好的参考价值,但也还有进一步改进的空间。

根据这篇综述文章,我们可以看到自动驾驶领域的数据融合技术仍面临一些挑战,需要从以下几个方面进行进一步的研究:首先,现有的融合技术过于依赖于传感器间的空间变换和转换,这在实际运用中会存在误差的累积和信息损失。未来需要研发更加直接且精确的跨模态信息交互和融合的机制,降低对准变换的依赖。其次,现有方法的可移植性较差,大多针对特定任务设计,未来需要研发可 generalizable 的融合框架,降低对具体应用场景的依赖。再者,已有框架较为固化,缺乏灵活性,无法处理实际中传感器缺失等情况。未来的融合系统需要可插拔的模块化设计,并考虑输入的可置换性。此外,现有方法的时间扩展性和空间扩展性较弱,未来需要能够跨更多视角、更广时间段进行融合的机制。最后,可设计具备自适应性的“智能”融合系统,可以根据具体场景和数据质量动态调整结构,实现优化的感知效果。总之,继续研发更加直接、泛化、可扩展和自适应的数据融合技术,是自动驾驶感知中的一个重要方向。

总结

总结来说我们这篇综述从“数据融合的内容”、“数据融合的时机”和“数据融合的方式”三个角度出发,对自动驾驶领域中的多源数据融合技术进行了比较全面和系统的调研与归纳。论文提出了新的三维分类体系,其中包含多视角、多模态和多时段三个维度,可以很好地将数据融合内容进行归类。在数据融合时机方面,论文沿用了常见的分类方法。在数据融合方式方面,论文不仅讨论了不同层次的融合时机,还概括总结了各种具体的数据融合运算方式及其优缺点,进行了深入的分析。为了说明理论框架的应用,论文还以特斯拉自动驾驶系统为例,展示了多源数据融合在实际系统中的运用情况。在总结现有技术的不足之后,论文还就未来融合系统的设计提出了见解。总的来说,本文框架完整,内容丰富,对自动驾驶领域的多源数据融合研究具有重要的参考价值。但论文也还有进一步改进的空间,例如可以增加对不同任务和数据集的具体讨论,以及对商用系统的数据融合方案的分析等。总体而言,本文对该研究领域进行了系统和高质量的调研总结,是一篇有价值的综述论文。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！