导读
一种新的从dense的描述符中检测出高信息量以及高可分性特征的方法。
近年来,计算机视觉几乎在我们可以想象的每个领域都开辟了几种新的可能性。整个研究的重点已经从分类转移到各种应用,如SLAM,多目标跟踪,信息检索,相机定位等。从数据中提取有意义的描述一直是关键问题之一。它涉及到利用特征检测器检测关键点和基于特征描述符提取信息的过程。最终的特征应该是信息量很大的,可以很容易地局部化,并且应该适应应用的不同需求。
关键点检测器算法的历史远远超过了20世纪80年代。即使在基于神经网络的描述符方面取得了重大进展,它们仍然被用于许多现实世界的应用。它们大多基于两种主要策略,即先检测然后描述(或联合检测和描述框架)。虽然它有一些优点,但检测和描述之间的兼容性并不理想。Describe-to-Detect(D2D)与传统的方法相反,首先描述然后检测关键点的位置。
改进图像匹配的主要研究方向有三个:非检测器特定的描述子、基于非描述子的检测和联合学习的检测-描述。基于CNN的描述符在训练和应用于同一数据领域时表现明显更好。同样,不同的关键点探测器适用于不同的任务。因此,为一个给定的任务寻找最优的一对检测器和描述符需要大量的实验。D2D旨在解决一种无需训练就能将关键点检测器适应于任何基于CNN的描述符的方法的需求。
受基于显著性度量的检测器的启发,D2D建立在香农熵的思想之上。它根据CNN的深度特征图的绝对显著性和相对显著性测度来定义关键点。D2D通过度量空间中的描述符相似度来检测关键点,从而利用整个深度的丰富信息内容。坚持住!在详细讨论之前,让我先描述一下前面提到的关键字。
关键点:图像中在不同成像条件下具有可重复检测潜力的点。
检测器:在给定的图像中找到那些关键点。
描述符:描述了这些关键点背后的信息。
绝对显著性:它是由对应的描述符产生的关键点中包含的信息的度量。
相对显著性:它是对其空间相邻性的独特性的度量。
D2D接收来自描述符的密集特征作为输入,而不是图像本身。因此,有两种可能,如果一个特定点的描述符具有高度的信息,那么它就具有高度的绝对显著性。另外,如果它在其空间中具有高度的区别性,那么它就具有高度的相对显著性。然而,它们中的任何一种都不足以识别关键点。例如,信息丰富但空间上无区别的结构不能被定位,信息较少的高区分结构是无用的。因此,只有当两个显著性指标都很高时,一个点才被认为是关键点。
绝对显著性可以通过计算描述子的熵来测量。与二进制描述符类似,它可以表述为:
其中 F¯(x, y) 是描述符F(x, y)的沿着每个纬度的均值。
同样,一个点的相对显著性可以使用自相关函数来测量,该函数是变量当前值与其邻近值之间关系的度量。这已经被修改并实现为适应密集描述符的平方差异之和(SSD)。这可以写成:
其中F(x, y)为以位置(x, y)为中心的描述符,||·||2为L2距离。根据预先训练的描述符模型提供的描述,高的值表示该点从它的邻居中脱颖而出。
实际上,我们可以通过全卷积网络(fully convolutional networks, FCN)提供的具有稠密特征的描述符来计算上述方程。给定网络结构和大小为H × W的输入图像,输出特征的大小必须为(H/4−7)× (W/4−7),接收域的大小为51 × 51。因此,每个描述符F(x, y)描述了一个以(4x + 14,4y + 14)为中心,步幅为4的51 × 51区域。本研究论文在HardNet上的实现结果如下:
如上所示,Sₐₛ突出所有有高强度变化的区域,而Sᵣₛ在结构化区域得分较高。最后,S结合了这两部分,导致重复/无纹理区域和边缘得分较低。Sᵣₛ大于Sₐₛ的点是信息丰富的,但不是具有局部可分性的。这包括重复的纹理,如树叶和建筑屋顶上的瓦片,以及视觉均匀区域的强度噪声。否则,行结构信息较少,但可以区别于相邻区域,这导致Sₐₛ大于Sᵣₛ。还需要注意的是,网络在51 × 51图像中看到的内容数量取决于图像的分辨率。
D2D显著提高了各种描述符的匹配性能,如下图所示:
综上所述,D2D是简单的,不需要训练,是有效的,并且可以与任何现有的描述符结合。描述子显著性是描述子空间中最重要的属性,我们使用绝对显著性和相对显著性测度来选择描述子空间中信息含量高、局部空间邻域中具有可区分性的关键点。
—END—