遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS

 

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_02

摘要

 

当场景中存在严重的遮挡时,作者的视频理解系统能感知对象吗?为了回答这个问题,作者收集了一个名为OVIS的大规模数据集,用于遮挡视频实例分割,即同时检测、分割和跟踪遮挡场景中的实例。OVIS由来自25个语义类别的296k高质量实例掩码组成,对象遮挡通常发生在这些类别中。虽然作者人类的视觉系统可以通过上下文推理和关联来理解那些被遮挡的实例,但作者的实验表明,目前的视频理解系统并不令人满意。在OVIS数据集上,最先进的算法获得的最高AP仅为14.4,这表明作者在理解真实场景中的对象、实例和视频方面仍处于初级阶段。在实验中,提出了一个简单的即插即用模块,执行时间特征校准,以弥补遮挡导致的对象线索缺失。基于MaskTrack R-CNN和SipMask,作者在OVIS数据集上获得了15.1和14.5的AP,在YouTube-VIS数据集上分别获得了32.1和35.1的AP,相比最先进的方法有了显著的改进。

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_03

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_04论文创新点

 

总之,作者的贡献有三方面:

•通过发布一个名为OVIS(闭塞视频实例分割的简称)的新基准数据集,作者推进了视频实例分割。OVIS的设计理念是在视频中感知物体遮挡,这可以揭示现实场景的复杂性和多样性。

•通过对五种最先进的视频实例分割算法进行综合评估,作者简化了对OVIS数据集的研究,这可以为未来的OVIS研究提供基线参考。

•作者建议使用即插即用模块来缓解遮挡问题。该模块以MaskTrack R-CNN[50]和SipMask[3]为基线,在OVIS和Y ouTube-VIS上均取得了显著的改进。

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_05

框架结构

 

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_06

时间特征校正的管道,可以通过改变下面的预测头插入到不同的视频实例分割模型中。

为了解决遮挡问题,作者还提出了一个即插即用的模块,称为时间特征校准。对于视频中给定的查询帧,作者使用参考帧来补充其缺失的对象线索。具体来说,该模块在查询帧的引导下学习参考帧的校准偏移量,然后利用该偏移量通过变形卷积来调整参考帧的特征嵌入。然后利用改进的参考嵌入来辅助查询框架的对象识别。作者的模块是一个高度灵活的插件。分别应用于MaskTrack R-CNN和SipMask,作者得到的AP为15.1和14.5,在AP上显著优于相应基线3.3和2.8。

 

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_07

实验结果

 

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_08

CMaskTrack R-CNN在OVIS上的定性评价

每行显示视频序列中5帧的结果。(a)-(c)是成功的案例,(d)和(e)是失败的案例。

作者进一步在Y ouTube-VIS数据集上评估提出的CMaskTrack R-CNN和CSipMask。如表2所示,CMaskTrack R-CNN和CSipMask在AP方面分别超过了相应基线1.8和2.6,说明了本文提出的特征校准模块的灵活性和泛化能力。此外,作者的方法也大大超过了其他有代表性的方法,如DeepSORT[45]、STEmSeg[1]等。在[2]中,Gedas等人提出了MaskProp,用一种新的掩模传播机制替代了MaskTrack RCNN中的边界盒级跟踪。通过使用更好的检测网络(HybridTask Cascade network[4])、更高的分割网络输入分辨率和更多的训练迭代,它在Y ouTube-VIS上获得了更高的AP 40.0。作者相信作者的模块也可以插入到这个强大的基线中,并且可以实现更好的性能。同时,MaskProp代码发布后在OVIS上的性能评估也很有趣。

 

在OVIS上尝试了5种开源的现有算法,结果如下表。可以看到OVIS非常具有挑战性。使用同样的评价指标,MaskTrack R-CNN在Youtube-VIS验证集上mAP能达到30.3,在OVIS验证集上只有10.9;SipMask的mAP也从Youtube-VIS上的32.5下降到了OVIS上的10.3。5个现有算法中,STEm-Seg在OVIS上效果最好,但也只得到了13.8的mAP。

 

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_09

 

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_10

结论

 

在本研究中,作者以遮挡场景下的视频实例分割为目标,并据此建立了一个名为OVIS的大规模数据集。OVIS由5223个严重闭塞实例的296k高质量实例掩码组成。虽然OVIS是继Y ouTube-VIS之后的第二个基准数据集,但其设计目的是检查当前视频理解系统在处理对象遮挡方面的能力。总的结论是,OVIS的基线性能远低于Y ouTube-VIS,这表明未来需要更多的努力来解决对象遮挡或解除对象[51]遮挡。作者还探索了利用时间上下文线索来缓解遮挡问题的方法,并在OVIS上获得了15.1的AP,在Y ouTube-VIS上获得了35.1的AP,这与最先进的算法相比是一个显著的收获。在未来,作者感兴趣的是在无监督、半监督或交互式设置下,为视频对象分割形成OVIS的实验轨迹。将OVIS扩展到视频全景分割[21]也是至关重要的。最后,合成遮挡数据[33]需要进一步的探索。作者相信OVIS数据集将引发更多在复杂和多样场景下理解视频的研究。

 

论文链接:https://arxiv.org/pdf/2102.01558.pdf

 

更多可视化样例请见该工作的主页:

http://songbai.site/ovis/

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_11

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_12

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_13

遮挡视频实例分割,牛津阿里最新开源OVIS数据集!_OVIS_14

Visualization of the annotations.