Mask rcnn介绍

原创

AI韬哥 2023-05-18 17:16:48 ©著作权

©著作权归作者所有：来自51CTO博客作者AI韬哥的原创作品，请联系作者获取转载授权，否则将追究法律责任

Mask R-CNN可以通过Faster R-CNN扩展得到，如Figure1所示。我们知道在Faster R-CNN中，对于每个ROI（文中叫candidate object）主要有两个输出，一个输出是分类结果，也就是预测框的标签；另一个输出是回归结果，也就是预测框的坐标offset。而Mask R-CNN则是添加了第三个输出：object mask，也就说对每个ROI都输出一个mask，该支路是通过FCN网络（如Figure1中的两个卷积层）来实现的。以上这三个输出支路相互之间都是平行关系，相比其他先分割再分类的实例分割算法相比，这种平行设计不仅简单而且高效。

Mask rcnn介绍_卷积

Mask R-CNN架构分解

Mask R-CNN分解为如下的3个模块，Faster-rcnn、ROIAlign和FCN。然后分别对这3个模块进行讲解，这也是该算法的核心。

FCN

Mask rcnn介绍_池化_02

FCN算法是一个经典的语义分割算法，可以对图片中的目标进行准确的分割。其总体架构如上图所示，它是一个端到端的网络，主要的模快包括卷积和去卷积，即先对图像进行卷积和池化，使其feature map的大小不断减小；然后进行反卷积操作，即进行插值操作，不断的增大其feature map，最后对每一个像素值进行分类。从而实现对输入图像的准确分割。

由于增加了mask分支，每个ROI的Loss函数如下所示：

Mask rcnn介绍_卷积_03

Mask R-CNN细节分析

Mask rcnn介绍_卷积_04

对于左边的架构，我们的backbone使用的是预训练好的ResNet，使用了ResNet倒数第4层的网络。输入的ROI首先获得7x7x1024的ROI feature，然后将其升维到2048个通道（这里修改了原始的ResNet网络架构），然后有两个分支，上面的分支负责分类和回归，下面的分支负责生成对应的mask。由于前面进行了多次卷积和池化，减小了对应的分辨率，mask分支开始利用反卷积进行分辨率的提升，同时减少通道的个数，变为14x14x256，最后输出了14x14x80的mask模板。而右边使用到的backbone是FPN网络，通过输入单一尺度的图片，最后可以对应的特征金字塔