**作者:**Lin Wu, Teng Wang and Changyin Sun
链接: https://doi.org/10.1109/LSP.2021.3123907
代码地址(即将开源):https://github.com/fiftywu/Multimodal-VPR
论文摘要
视觉位置识别是机器人领域中必不可少且具有挑战性的问题之一。在这篇快报中,我们首次探索了在动态不变空间中使用语义和视觉的多模态融合来改善动态环境中的位置识别。首先,我们设计了一种新颖的深度学习架构来生成静态语义分割,并直接从相应的动态图像中恢复静态图像。然后,我们利用空间金字塔匹配模型(SPM)将静态语义分割编码为特征向量,而对于静态图像,则使用流行的词袋模型(BoW)进行编码。在上述多模态特征的基础上,我们通过语义和视觉编码的联合相似度来衡量查询图像与目标地标之间的相似度。大量实验证明了所提出的方法在动态环境中的位置识别的有效性和鲁棒性。
视觉位置识别
视觉位置识别(VPR)作为 SLAM 系统的关键组成部分,是一项可以帮助机器人确定其是否位于先前访问过的地方的任务。当前的工作通常将其视为将当前观察与一组参考地标相匹配的图像检索任务,并设计各种特征描述符来测量地标相似性。这些方法通常假定系统在静态环境中运行, 然而,现实世界是复杂而动态的。动态物体的存在使得不同时刻的场景外观不一致,从而增加了特征匹配的误差。
动态不变性感知
动态不变性感知是指在动态场景下,将其中动态的内容(如行人、车辆)消除并转换成与之相对应的静态内容。典型的工作有《Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM》(IEEE Transactions on Robotics,2020),我们在此基础上做了一点改进,提出了一种粗糙到精细的两阶段动静转换模型《A Coarse-to-fine Approach for Dynamic-to-static Image Translation》(Pattern Recognition, 2021)。而在IEEE-SPL这篇快报中,我们设计一种新颖的深度神经网络架构从输入的静态场景图像直接推理出静态语义(即静态语义分割图)和的静态图像。特别地,我们还将静态语义作为先验用来提高静态图像的生成质量。静态语义分割结果与静态图像转换效果如图2、图3所示(实验数据集由无人驾驶模拟器CARLA创建)。
视觉位置识别实验
为了与当前主流的图像转换方法的VPR召回率进行比较,我们使用 Pix2Pix、MGAN、SRMGAN 和 SSGGNet 来恢复的静态图像,继而从中提取 BoW 特征来测量图像相似性。表中给出了不同模型的召回准确率,相比之下,我们的方法同时利用了 BoW 和 SPM 编码,表现最好,并且大大提高了第二名SSGGNet-BoW的召回率,这充分体现了基于 SPM 的语义特征的重要性。此外,SSGGNet-BoW 优于 Pix2Pix-BoW、MGAN-BoW 和 SRMGAN-BoW,这进一步验证了利用静态语义指导静态图像生成的有效性。
相关论文
T. Wang, L. Wu and C. Sun, "A coarse-to-fine approach for dynamic-to-static image translation,” in Pattern Recognition, 2022, doi: 10.1016/j.patcog.2021.108373.
L. Wu, T. Wang and C. Sun, “Multi-Modal Visual Place Recognition in Dynamics-Invariant Perception Space,” in IEEE Signal Processing Letters, 2021, doi: 10.1109/LSP.2021.3123907.
B. Bescos, C. Cadena and J. Neira, "Empty Cities: A Dynamic-Object-Invariant Space for Visual SLAM," in IEEE Transactions on Robotics, 2021, doi: 10.1109/TRO.2020.3031267.
P. Isola, J. Zhu, T. Zhou and A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017, https://arxiv.org/pdf/1611.07004.pdf.