vioc和vios 的关系 vis的区别

转载

daleiwang 2024-08-28 14:09:44

文章标签 vioc和vios 的关系人工智能算法 ide 数据集 文章分类 iOS 移动开发

本篇内容

VIS的概念
VIS与其他相似任务的区别
现有的VIS算法
相关资源

VIS的概念

这个任务的目标就是，把视频帧的每一个实例分割出来。融合了检测、分割、跟踪这些最常见的计算机视觉任务。可以结合2019年ICCV的文章《Video instance segmentation》中的定义： “Different from image instance segmentation,the new problem aims at simultaneous detection, segmentation and tracking of object instances in videos.”

VIS与其他相似任务的区别

VIS：Video instance segmentation VOS ：Video object segmentation VOD ：Video object detection MOTS ：Multi - object tracking and segmentation

	是否分割	是否检测
VIS	Y	Y
VOS	Y	N
VOD	N	Y
MOTS	Y	Y

以目前的研究现状，VIS[2]与MOTS[3]十分相近，目前可以直观的总结如下区别：MOTS的目标类别较少，跟踪时间短；VIS目标类别多，跟踪时间长。

现有的VIS算法

现有的方法主要以Mask R-CNN+Track为主，主要思想就是以Mask R-CNN为基本框架，加入跟踪模块，完成VIS。我们可以分析几篇经典文章，寻找一般性结论。

《Video instance segmentation》

vioc和vios 的关系 vis的区别_ide

该文章以Mask R-CNN为基础，在原有网络的三个功能（定位，识别，分割）的基础上增加一个跟踪（Track）模块，完成VIS任务。具体的内容这里不做详谈，可以参照Rlin_by这位博主的论文讲解。这里主要说一点，就是跟踪模块，是由两个全连接层组成的。《MOTS: Multi-Object Tracking and Segmentation》

该文章应该早于上一篇文章，文章扩展了多目标跟踪的任务，变成了多目标跟踪与分割（MOTS），该任务在上文中进行了简单的对比，但本质上属于同一task。该文章中也是采用了Mask R-CNN与关联模块的结合。具体算法流程如下：

vioc和vios 的关系 vis的区别_数据集_02

看图说话，这里的黄色部分是作者的创新点，一个是3D卷积，为了利用输入的连续帧的时间维度的信息，另一个就是“关联嵌入”，即我们的跟踪模块，这里的功能是将每个region proposal转换为特征列向量，每个向量为128维。很巧，该模块也是全连接层。追究根本，就是将每个proposal的深度图像特征转换为特征向量，然后进行相似度计算，无论你是向量内积也好，还是计算向量差的二范数，还是有更花哨的计算distance的方法，都是为了比较两个目标的相似度，进而完成数据关联，得到online的跟踪结果。

《Unovost: Unsupervised offline video object segmentation and tracking for the 2019 unsupervised davis challenge》[4]

这篇文章是来自2019年Davis挑战赛的一个比赛论文，无监督offline的VOS领域，只关注online算法的朋友可以绕行。该文章用Mask R-CNN生成像素级的proposal，然后生成小段的局部跟踪轨迹，再生成全局跟踪。其中没有什么太多的创新，可以多学习tricks。

总结

我们本篇主要针对VIS话题进行了盘点，由于这是2019年新出的计算机视觉task，一切都没有定论，该方向将多个任务结合，在未来当这些子方向做到瓶颈的时候，很有可能会成为主流方向。就算法方面，我们发现，大家都不约而同的采用了"Mask R-CNN + 跟踪模块"的形式，跟踪模块也多以全连接层实现，以一种最简单的逻辑实现了跟踪。未来的方向应该会有更多样式的方法提出，期待后续的成果出现。

参考资源：

1.《深度学习从入门到放弃之CV-video segmentation综述》https://zhuanlan.zhihu.com/p/32247505 2.《Video Instance Segmentation》-2019-ICCV 3.《MOTS: Multi-Object Tracking and Segmentation》 -2019-CVPR 4.《UnOVOST: Unsupervised Offline Video Object Segmentation and Tracking forthe 2019 Unsupervised DAVIS Challenge》 -2019-DAVIS Challenge

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。