CVPR 2023 | UniDistill: 在鸟瞰视角下统一的跨模态知识蒸馏框架

技术信仰价值务实

在使用自动驾驶 3D 目标检测算法时，你是否困扰于“既想也想”的问题？既想用单模态检测器以节省传感器成本，并且加快检测速度，也想获得其它模态的知识以得到更高的检测精度。为此，旷视研究院 AI 计算组提出了统一的跨模态知识蒸馏框架——UniDistill，它克服了传统知识蒸馏框架的缺陷，不仅支持多种模态组合的蒸馏路径，还能让单模态检测模型的性能大幅提升。下面带领大家感受一下这种全新的跨模态知识蒸馏框架。

开源代码：

https://github.com/megvii-research/CVPR2023-UniDistill

论文链接：

http://arxiv.org/abs/2303.15083

背景

根据输入数据的模态，目前的 3D 检测模型可以分为单模态检测模型（camera或LiDAR）与多模态检测模型(camera+LiDAR)，其中，单模态检测模型的性能较差，而多模态检测模型设计复杂、计算量大，且在实际使用过程中，若是某一模态出现问题，则会检测失败。提升单模态检测模型性能的一种方式是使用跨模态知识蒸馏，将另一不同模态的 teacher 检测模型的知识迁移至 student 检测模型，然而如下图两种已有的蒸馏框架图所示，目前的知识蒸馏框架存在以下缺陷：

（1）完全统一了 teacher 和 student 检测模型的框架，在输入端对不同模态数据进行变换，损失了该模态数据的深层信息；

（2）完全固定了 teacher 和 student 的模态，实际应用场景会受到限制。

（a）MonoDistill [1]框架；(b)S2M2-SSD [2]框架；(c)UniDistill框架

为此，我们提出了一种在鸟瞰视角（BEV）下进行的统一跨模态蒸馏框架。我们观察到，现在的高性能模型都是在 BEV 下进行检测，并且可抽象成统一的检测流程，生成统一的中间特征，后处理形成最后检测结果。因此可以对这些在 BEV 下的特征进行蒸馏，从而无需限制 teacher 和 student 的模态以及模型。在 nuScenes 数据集下的实验证明，当使用 UniDistill 进行蒸馏后，student 检测器的 mAP 和 NDS 能提升2.0%~3.2%，且基于 LiDAR 的 student 检测器性能超过了现有的一些 SOTA 方法。

具体方法

上图是 UniDistill 的主要流程。Teacher 和 student 检测模型都可以抽象成三个阶段：

（1）第一个阶段提取输入特征，通过视角变换投影至 BEV 下，得到浅层 BEV 特征；

（2）第二阶段继续对 BEV 特征进行编码，得到深层 BEV 特征；

（3）检测头根据深层特征生成响应特征，用于后处理形成检测结果。因此可以在这三类特征上进行知识蒸馏，从而统一蒸馏框架。

特征蒸馏

特征蒸馏（Feature Distillation）主要用于对齐 teacher 和 student 的浅层 BEV 特征。由于特征图中大部分位置都是背景，为了避免其对蒸馏效果产生影响，我们通过 ground truth 对需要对齐的部分进行筛选。具体为先将 ground truth 投影至 BEV 下，然后选择其四个顶点，四个边的中点，一个中心点，共九个点作为关键点，再对其在 teacher 和 student 的浅层 BEV 特征和上的特征进行对齐：

关系蒸馏

关系蒸馏（Relation Distillation）主要用于对齐 teacher 和 student 的深层 BEV 特征。同样为了消除背景影响，对每一个 ground truth 我们选择与特征蒸馏相同的九个点，计算其在 teacher 和 student 的深层 BEV 特征和上两两之间的余弦相似度，

最后对相似度进行对齐

响应蒸馏

响应蒸馏（Response Distillation）主要用于对齐 teacher 和 student 的响应特征。由于在 ground truth 中心一定范围内的预测结果足够准确，对每一个ground truth都设置了以其中心为圆心的一个一定大小的圆，对齐在该圆内的 teacher 和 student 响应特征和。

总体优化目标：

提出的三个蒸馏损失可直接与原来的检测损失进行结合用于优化 student 检测模型。

实验

训练 UniDistill 的过程中，我们选用 Centerpoint [3]，BEVDet [4]，以及 BEVFusion [5]作为其中的 LiDAR 检测模型，camera 检测模型以及多模态检测模型，并以 nuScenes 作为数据集。

指标对比

上表是在 nuScenes 测试集上的结果，可以看到 UniDistill 能够在不同模态组合的情况下提升 student 检测模型的性能，且蒸馏后的 LiDAR 检测器性能超过了一些 SOTA 方法。

消融实验

上表是在 nuScenes 验证集上的结果，可以看到每一种蒸馏损失都能特征 student 的性能，且相互之间共同使用能进一步提升性能。

定性实验

上图是在 nuScenes 验证集上的可视化结果。

（a）为 fusion 检测模型作为 teacher 的结果，

（b）是 LiDAR 检测模型作为 student 且不使用 UniDistill 的结果，

（c）为 LiDAR 检测模型作为 student 且使用 UniDistill 的结果。显示了UniDistill 能较好地去除 false positive 预测框。

总结

在这项工作中，我们提出了一种在 BEV 下统一的跨模态知识蒸馏框架，将其命名为 UniDistill。我们在 nuScenes 数据集上训练 UniDistill，实验结果表明，UniDistill 能够在多种 teacher 和 student 模态组合的情况下提升 student 检测模型的性能。

引用

[1] Zhiyu Chong, Xinzhu Ma, Hong Zhang, Yuxin Yue, Haojie Li, Zhihui Wang, and Wanli Ouyang. Monodistill: Learning spatial features for monocular 3d object detection. In International Conference on Learning Representations, 2021

[2] Wu Zheng, Mingxuan Hong, Li Jiang, and Chi-Wing Fu. Boosting 3d object detection by simulating multimodality on point clouds. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13638–13647, 2022.

[3] Tianwei Yin, Xingyi Zhou, and Philipp Krahenbuhl. Centerbased 3d object detection and tracking. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 11784–11793, 2021.

[4] Junjie Huang, Guan Huang, Zheng Zhu, and Dalong Du. Bevdet: High-performance multi-camera 3d object detection in bird-eye-view. arXiv preprint arXiv:2112.11790, 2021

[5] Zhijian Liu, Haotian Tang, Alexander Amini, Xinyu Yang, Huizi Mao, Daniela Rus, and Song Han. Bevfusion: Multitask multi-sensor fusion with unified bird’s-eye view representation. arXiv preprint arXiv:2205.13542, 2022.

点击阅读原文，查看 GitHub 开源代码。

CVPR 2023 | UniDistill: 在鸟瞰视角下统一的跨模态知识蒸馏框架

猜你喜欢