构建高清地图往往都是公司的高清地图团队的任务,但是需要很大的工作量,并且道路变化会增加标注的工作量,实时的建立高清地图,将任务交给感知,是个很有意义和挑战的事!
arxiv地址: https://arxiv.org/pdf/2107.06307v4.pdf
github地址: https://github.com/Tsinghua-MARS-Lab/HDMapNet
展示链接:https://tsinghua-mars-lab.github.io/HDMapNet/
一. 解决问题和贡献
1.1. 解决问题
- 传统高精地图的缺点:
- 复杂的pipeline(融合)
- 标注需要大量的人力
- 因为道路变化,需要实时的更新数据
1.2. 贡献
- HDMapNet的优点:
- 简单且端到端的pipeline
- 便宜且自动的
- 能够实时捕捉动态环境
2.主要内容
2.1. 整体结构
-
HDMapNet的输入:可以是环视摄像头图片,也可以是激光雷达,当然也可以是两个或多个模态的输入
-
HDMapNet的输出:是矢量化的俯视图,而不是热力图。
-
模型结构:
- Camera:
- Encoder:用Efficientnet或resnet得到环视相机的特征图
- 视角转换:将同一时刻6张不同摄像头图片分别转换到俯视图
- 生成BEV特征图:利用相机的内参和外参将6个相机的特征图转换到一个特征空间
- BEV Decoder:对Bev处理得到我们想要的特征图
- Lidar:
- Voxelization:将点云体素化
- Shared PointNet
- DEV Decoder
- Vectorization:
- Semantic mask:道路分界线
- Instance Embedding:车道线实例分割
- Direction:方向,因为最后的表示的线段或折线段,所以需要方向
- 后处理:
- 将Semantic mask和Instance Embedding进行聚类,相当于得到实例分割的结果
- 加入Direction得到矢量化的分割图
- Camera:
2.2. 聚类损失
- C :Ground True的簇数
- N c N_c Nc : 簇c的元素个数
- μ c \mu_c μc : 簇c的embedding均值
- ∥ . ∥ \Vert.\| ∥.∥ : L2范数
- δ v \delta_v δv、 δ d \delta_d δd:分别是方差和距离损失
- L:聚类损失
3. 实验结果
-
相机:在车道线(Divider)和人行道(Ped Crossing)检测上比较好
-
Lidar:在路沿(Boundary)检测上比较好,因为路沿具有高度差
-
整体效果:
-
相机、Lidar以及它们的融合效果:
-
多帧融合更新高清地图:
-
在夜晚、下雨天、正常环境的准确率: