作者丨paopaoslam
标题: DymSLAM:4D Dynamic Scene Reconstruction Based on Geometrical Motion Segmentation
作者: Chenjie Wang and Bin Luo and Yun Zhang and Qing Zhao and Lu Yin and Wei Wang and Xin Su and Yajun Wang and Chengyuan Li
机构: Wuhan University
链接: https://arxiv.org/pdf/2003.04569v1.pdf
编译: zhuhu
审核:zhuhu
摘要
大多数SLAM算法都是基于场景是静态的假设。然而,在实践中,大多数真实场景通常包含移动对象。在这封信中,我们介绍了一个动态立体视觉SLAM系统,它能够重建具有刚性运动对象的4D(3D+时间)动态场景。与以前将移动对象视为异常值并忽略它们的框架不同,DymSLAM获得关于动态对象的6DoF运动轨迹和3D模型。采用多运动分割的方法对不同运动对象的运动模型进行分割,得到准确的运动对象模板。除了自身运动外,我们的系统在重建静电背景密集地图的同时,还可以获得运动物体在全局坐标系中的4D(3D+时间)模型和6DOF轨迹。同时,DymSLAM不依赖语义线索或先验知识,适用于未知刚体对象。我们在一个真实的室内环境中进行了实验,在这个环境中,相机和物体都在大范围内移动。结果证明,我们提出的方法是一种最先进的SLAM系统,适用于这种动态环境。
主要工作与贡献
在本研究中,我们提出一种立体动态视觉SLAM系统(DymSLAM)来实现具有刚性运动物体的4D动态场景重建。这是通过将场景分割成多个运动模型来实现的,其中包括基于多运动分割方法的相机运动模型。我们将图像中的每个像素与单个运动模型相关联。然后,我们利用从三维模型到二维图像转换得到的投影掩模来改善边界分割不精确的效果。然后,我们估计每个运动模型的6DOF刚体姿态,并重建每个运动模型的密集的三维点云。最后,将运动物体相对于摄像机的运动和运动物体的三维点云变换到全局参考系中,得到4D(3D+时间)序列。所提出的方法不依赖于语义信息作为初始或先验知识,并且可以基于几何运动分割对未知的移动对象进行分割。
据我们所知,这是第一个立体动态SLAM系统,能够跟踪6DoF姿势,并基于多运动分割重建随时间变化的刚性运动对象的密集3D模型,即使在摄像机和对象都在室内经历广泛运动(在我们的实验中是超过25m的走廊范围)的情况下也是如此。在我们的实验中,这是第一个能够跟踪6DoF姿势并基于多运动分割重建刚性运动对象的密集3D模型的立体动态SLAM系统。贡献如下:
- 我们提出了一种动态立体SLAM系统,该系统能够估计摄像机和刚性运动物体在全局坐标系中的6DoF轨迹,同时重建它们的密集3D点云和静电背景的密集地图。
- 该系统基于提出的无语义信息的多运动分割方法,对场景的不同运动模型进行分割,在改进边界分割不精确的基础上,得到准确的未知运动目标掩模。
- 在室内走廊的真实机器人平台和公共相关数据集上对该动态SLAM进行了评估。实验结果表明,该方法达到了最好的性能。
方法
首先对传入的RGB图像序列进行校正。然后在双目相机的左右帧以及时间上连续的立体帧上对显著的图像特征进行检测和匹配,然后结合所提出的多运动分割的方法,将这些时间匹配的立体特征点聚类为多个运动模型参数实例。这些运动模型对应着相机和每个移动对象的运动。然后,通过在超像素级别应用分配问题,将每个像素和单个运动模型相关联。并且为了补偿边界分割的不准确,我们利用了从运动目标的3D模型投影的掩膜。对当前帧中每个运动模型的6DOF刚体姿态进行估计,经过多运动估计和优化后,输出摄像机和物体在不同运动中的运动轨迹。通过组合新估计的刚体姿势,通过融合标记为属于该模型的点来重建和改进每个运动模型的密集3D点云。最后,将每个物体点云变换为全局坐标系及其轨迹,得到动态场景的4维(3D+时间)点云。
算法框架
多运动物体视觉里程计
本节扩展了我们之前的工作,其中涉及匹配特征点的多运动分割,以及每个运动模型的VO估计(ORB-SLAM2)。整个多目标跟踪的部分如上图所示。
A. 多运动分割
使用现有的LIBVISO2对双目图像进行特征点检测和匹配,并且引入了量化残差的概念,拓展了论文29中用于分割不同运动特征点的方法。对于运动分割来说,离群点是最大的干扰来源,在视觉里程计中也限制了其应用。因此,我们通过通过量化残差来引入置换偏好,通过量化可以减少属于相同模型的inliers偏好的差异并增加抑制异常值干扰的能力。
B. 多运动估计和优化
在本节中,我们首先描述如何将不同的运动模型转换为相机的6dof轨迹以及全局参考帧中的每个移动刚性对象。接下来,我们设计多运动优化方法,同时优化相机的轨迹和移动物体,以进一步提高轨迹精度。
与文献[30]一样,通过使用属于每个运动模型的inliers的传统VO批量估计来估计每个运动模型的轨迹,并且仅使用刚体假设。对于属于移动对象的运动模型,所得到的结果是相对于相机的局部坐标系,而不是全局坐标系中的运动对象的轨迹。所以,我们使用第一帧作为全局参考帧,并且在识别出表示摄像机的运动模型后,估计摄像机和运动对象在全局参考帧中的运动轨迹。对于每个运动对象,根据估计的姿态将3D特征投影到第一帧中以计算运动对象表面点的重心。结果被认为是将每个移动对象与相机相关联的初始变换. 重心通过随时间变化的特征点进行调整和更新,则每个运动对象的运动在全局参考坐标系下可用下列式子计算:
为了更进一步提高轨迹估计的准确性,我们设计了多运动优化策略,包括多运动的局部BA和多运动估计的因子图优化,如下图所示:
图2 多运动估计优化策略
运动对象掩码
A. 标签指定
通过将后续帧的每个点和刚性模型的运动相关联,将其指定给单个标签。为了实现高效的逐个像素的运动分割,我们在超像素级别应用了基于合并超像素分割的标记算法。
B. 掩码投影
在像素级别和得到的掩码上对运动对象进行分割。为了补偿边界的不精确分割,我们利用从3D模型转换为2D图像获得的投影掩模。对于每个运动对象,我们使用其运动估计来将其更新后的3D模型投影到当前帧的2D图像中。
图3 运动掩模,超像素等介绍
稠密重建
按照上述步骤,我们估计摄像机和不同刚体运动物体的运动轨迹,得到运动物体的准确掩模。在本节中,我们将描述如何构建静态背景的密集3D点云地图,同时重建不同运动对象的密集3D模型。密集重建过程的概述如系统框架所示。
A. 静态背景稠密重建
在静态背景稠密重建中,我们仅使用与摄像机运动相关联的像素,并将移动对象的所有像素视为异常值。其中双目重建的部分是基于RTAB map的方法。
B. 运动对象的稠密重建
基于多运动分割和运动对象掩模的结果,我们重建了每个运动对象的3维点云,对于由表示的刚体变换标签的运动对象,我们首先在属于运动对象的立体匹配点对中进行立体稠密匹配。其点云根据已知的相机外参和内参获得,深度信息由当前帧的匹配获得。然后,在连续帧中,每帧点云使用两个相邻帧的自我刚度变换进行缝合。
实验结果
实验中使用ZED双目相机在移动平台上进行测试。
实验设备及结果
结论,讨论及未来工作
本文中,我们介绍了DymSLAM系统,它是一个动态立体视觉SLAM系统,它在估计摄像机和每个运动刚体物体在全局坐标系中的6自由度轨迹的同时,重建运动物体的密集点云和静态背景,以重建动态场景的4维点云。该系统将基于量化残差的方法引入到多运动分割中,能够分割出不同运动对象的运动模型,并将三维模型投影得到的模板进行融合,得到准确的模板。与基于语义分割的方法相比,该方法能够处理未知运动目标。DymSLAM在真实的室内走廊和公共相关数据集中进行了评估。结果证明,DymSLAM可以达到最先进的性能。由此产生的系统可以使机器人获得对环境更好的场景感知,从而使其能够用于高级任务,如动态对象的避障。
在未来的工作中,我们将积极探索连续时间运动估计和密集重建的互惠互利,以及实现可实时使用的框架。同时,我们将尝试将该系统应用到机器人自主导航中,以提高机器人在动态场景中躲避移动障碍物的能力