作者丨方川@知乎

编辑丨计算机视觉工坊

动态SLAM和语义SLAM​

场景中的动态物体不一定是object或不能得到object, 所以不一定是语义的。语义地图不一定是动态的,所以语义地图和动态地图是有重叠,但是我们这里把他们分开,主要是文章太多了。

关于动态SLAM的相关工作可以参见2016年的一篇综述:Visual SLAM and Structure from Motion in Dynamic Environments: A Survey

在本文中,我们将SLAM技术划分为下图所示的三个阶段:

一文详解语义SLAM相关工作_3d

随着近十年的技术迭代,我们目前所处的阶段可以称之为“感知阶段”,研究的重点偏向于对环境的感知和理解。

一、语义SLAM系统组成

语义SLAM系统由两大部分组成:语义提取模块和视觉SLAM模块。

1.1 语义提取:

语义提取工作分为两步:目标检测、语义分割。

目标检测

目标检测工作的发展可以归纳为下图:

一文详解语义SLAM相关工作_点云_02

YOLO系列工作在广大学者的推动下,目前已经更新到了YOLO v5. 总的来说,目标检测工作是为了更快、更准的检测图像中的目标,在效率方面,one stage的工作胜于 two stage工作,在精度方面,two stage工作胜于one stage工作。

语义分割

语义分割方面比较重要的几个工作可以列在下表:

一文详解语义SLAM相关工作_3d_03

最新的语义分割工作当属google的ViP-DeepLab, 可以对图像平面上的每个像素联合执行视频全景分割和单眼深度估计,并在子任务的几个学术数据集取得了sota结果。

1.2 VSLAM:

已开源的比较重要的视觉SLAM工作如下表:

一文详解语义SLAM相关工作_点云_04

二、机器人如何鲁邦的“感知”环境?

2.1 构建语义地图

在广义上说,语义地图可以分为物体级别和像素级别。语义建图的主要工作可以罗列在下表

一文详解语义SLAM相关工作_3d_05

2020年MIT提出的Kimera框架是以语义化的mesh的形式生成语义地图。

2.2 语义如何影响“感知”鲁棒性

  • 语义信息辅助特征点的提取匹配过程,如过滤动态物体上的特征点、利用语义过滤错误特征匹配;
  • 语义信息辅助short-term/long-term的数据关联,提高Tracking、relocalization的鲁棒性;

一文详解语义SLAM相关工作_3d_06


2.3 语义如何影响“感知”准确性

  • 语义信息帮助单目SLAM确定尺度;
  • 语义信息与几何信息在后端共同优化,提高图像位姿精度;
  • 语义信息在relocalization、loop detection方面的帮助;

一文详解语义SLAM相关工作_点云_07

三、关于目前语义SLAM工作的一些讨论

这里主要针对语义在定位算法侧的一类工作进行讨论,主要包括[5], [6], [7], [8], [9].

[3]: 视觉点云地图的形式为点的位置+点的语义标签,基于粒子滤波器估计2D-3D correspondence, 进而达到图像位姿估计的目的。(需要提供定位初值)

[5]:Kimera-Semantics先生成全局网格模型,然后将每一张关键帧图像上的语义信息提取出来,注释在网格模型上。

[6]: 语义信息辅助单目slam确定尺度, 并且提出了一种在2D图像上做3D object detection的方法. 目标检测的结果可以辅助festure matching、BA。应用到定位算法上,我们可以利用目标检测结果去除动态物体。

[7]: 将车载环视相机用成了激光雷达,并且利用图像上检测到的语义信息,在定位过程使用环视相机生成的语义点云与已有的语义地图做ICP.

[8]: 基于线段和线框的语义地图(稀疏矢量化)表达方式,基于视觉重定位的结果,利用图像中的线段、线框优化位姿。

[9]: 定义了电线杆、标志牌、路面标志等语义元素,在tracking和BA环节同时使用语义元素与传统特征点,并且将语义信息提供的线参数化,放到BA环节来优化相机位姿。语义地图点云(稀疏)包含点的位置和语义信息, 定位过程先用GPS信息,然后image retrieval, 最后接上语义tracking环节。

四、思考

1.语义地图表达形式?

在[8],[9]工作基础上添加点、线、面、数字语义

2. 定位过程中如何利用语义?

视觉重定位+语义优化
视觉重定位+语义SLAM

Reference

1.Semi-dense 3D semantic mapping from monocular slam.

2.Probabilistic data association for semantic slam.

3.Long-term visual localization using semantically segmented images.

4.Graph-based semantic multi-view localization.

5.Kimera: an Open-Source Library for Real-Time Metric-Semantic Localization and Mapping.

6.CubeSLAM: Monocular 3D Object SLAM.

7.AVP-SLAM: Semantic Visual Mapping and Localization for Autonomous Vehicles in the Parking Lot.

8.Compact 3D Map-Based Monocular Localization Using Semantic Edge Alignment.

9.Road Mapping and Localization using Sparse Semantic Visual Features.

本文仅做学术分享,如有侵权,请联系删文。


一文详解语义SLAM相关工作_点云_08

▲长按关注公众号