向大家推荐一个近期出现的全景分割算法 EfficientPS,在全景分割的 4 大数据集Cityscapes,、KITTI、Mapillary Vistas、IDD中测评精度全部位于榜首,且其语义分割和实例分割性能也表现不俗,可谓分割领域三项全能选手。
EfficientPS 出自论文 EfficientPS: Efficient Panoptic Segmentation,该文作者来自德国弗莱堡大学:
请看一段 EfficientPS 视频效果Demo:
什么是全景分割?
从上述自动驾驶环境中的视频可以看出,自驾汽车需要感知外景环境,包括建筑物、地面、天空、树木这些背景,和行人、汽车、交通标志等前景,背景需要用语义分割技术计算出来,前景则需要标示出个体,即需要实例分割。
全景分割(Panoptic Segmentation)即同时实现对背景的语义分割和前景的实例分割。这是图像分割领域近来的新趋势,是对环境感知的进一步演化。
EfficientPS 算法分割结果如下:
EfficientPS 网络架构
EfficientPS的设计目标是在计算效率高的同时,实现比之前的最先进的模型更优越的性能。
最初的全景分割方法是同时进行实例分割和语义分割,然后在后处理步骤中,将二者的预测结果结合在一起。可想而知这种方法计算开销大,存在信息冗余且每个网络的预测存在差异不易结合。尽管近来的方法已经在使用自上而下的共享网络组件或自下而上的顺序方式在解决这一任务方面取得了重大进展,但这些方法仍然存在计算效率和精度不足的问题。
EfficientPS 算法架构图如下:
从 EfficientPS 名字即可看出其与 EfficientNet 有关,它包括改进的 EfficientNet(图中红色部分)主干网和双路FPN(紫色、蓝色和绿色部分)、语义分割头(黄色部分)、基于Mask R-CNN的实例分割头(橙色),以及最后的全景融合模块。设计特点:
1)使用 mobile inverted bottleneck 单元的共享主干网,由EfficientNet改进而来,其最大创新是在缩放策略上,使用复合缩放的方式来均匀地扩展网络的所有维度(输入图像大小、网络宽、深等);
2)发明了双路特征金字塔网络(2-way Feature Pyramid Network),作者发现标准的FPN由于信息的单路流动,在聚合多尺度特征方面有其局限性,于是提出了新型的双向FPN,它可以实现信息的双路流动,在运行时间上保持变化不大的同时,大幅提高了前景类的全景分割质量;
3)在语义分割头,使用可分离卷积,更好的捕捉精细特征和长程上下文信息,实现了更好的目标边界细化;
4)在实例分割头,使用了Mask RCNN,并用可分离卷积和iABN同步层来增强它;
5)在融合语义分割与实例分割结果生成全景分割输出时,作者提出一种新的全景融合模块,可根据语义头和实例头的mask的置信度自适应的动态调整它们的融合,另外共轭集成特定前景类的实例和背景类,形成最终的输出结果。
实验结果
作者在四个具有挑战性的城市场景理解基准数据集上对 EfficientPS 进行了评估,分别是Cityscapes、Mapillary Vistas、KITTI和IDD(KITTI原本没有全景分割标注,作者们进行了标注)。
在 Cityscapes 数据集上,EfficientPS 排名第一,并且远远超过了之前的SOTA,同时参数更少,计算量更少,推理时间更快。
在Cityscapes语义分割基准和Cityscapes实例分割基准中,EfficientPS也在已发布的方法中排名第二。
在Mapillary Vistas、KITTI和IDD基准数据集上,EfficientPS 均为目前最先进的全景分割算法。