计算机视觉中的多视图几何如何学

转载

索姆拉 2024-09-02 16:37:15

GRNet: Learning Multi-view Camera Relocalization with Graph Neural Networks

驭势科技, 北京大学机器感知重点实验室, 北京长城航空测控技术研究所

本文提出了一种使用多视角图像进行相机重定位的图神经网络。
该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的 序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM只是一种GNN的特殊情况。
为了让GNN能适应于重定位任务，作者重新设计了节点、边、嵌入函数，使用CNN和GNN分别用于特征提取和知识传播。
设计了一个通用的基于图的损失函数，超越了原来的连续视角约束，引入了多视角约束

为什么使用GNN呢？因为GNN可以处理非结构性输入。LSTM和视觉里程计可以提供前后相邻帧的时间一致性约束，且LSTM并不能保持长时间的记忆。而GNN可以提供不连续多视角帧之间的时间一致约束。

计算机视觉中的多视图几何如何学_归一化

整体框架：

计算机视觉中的多视图几何如何学_计算机视觉中的多视图几何如何学_02

节点：是一个3维的张量，每个节点 $计算机视觉中的多视图几何如何学_初始化_03$ 的特征 $计算机视觉中的多视图几何如何学_计算机视觉中的多视图几何如何学_04$
边初始化：初始化的时候连接所有的节点对，不放过任何可能的两个节点之间连接，后期会有边池化操作简化计算量
这一步相比于LSTM的相邻节点相连具有优越性。

计算机视觉中的多视图几何如何学_归一化_05

多层更新引入了边池化机制，去除冗余连接。

计算机视觉中的多视图几何如何学_初始化_10

多层图神经网络：
使用ResNet34的四个模块 $计算机视觉中的多视图几何如何学_初始化_11$ 对节点进行更新：
$计算机视觉中的多视图几何如何学_初始化_12$
使用图神经网络 $计算机视觉中的多视图几何如何学_计算机视觉中的多视图几何如何学_13$ 对边进行更新：
KaTeX parse error: Undefined control sequence: \ at position 14: V^l_{fused},\̲ ̲epsilon ^l=f^l_…
自适应边池化：
只保留余弦相似度最高的前k个节点之间的连接：
$计算机视觉中的多视图几何如何学_初始化_14$
位姿估计：
使用全局平均池化（GAP）对每层GNN的输出进行池化（融合各层特征输出），然后逐通道连接，通过两个全连接网络进行位置和姿态的估计。