本文考虑了视频中的自监督运动目标检测 (MOD) 问题,其中在训练和推理阶段均不涉及真值。


       移动相机可能会带来额外的挑战,这会导致运动独立假设和局部独立背景运动的失败。


       为了解决这些问题,本文提出了一种 多运动和外观自监督网络(MASNet)来为MOD 引入场景的多尺度运动信息和外观信息。


       运动物体,尤其是可变形物体,通常由 不同时间尺度的运动区域 组成。引入多尺度运动可以聚合这些区域,形成更完整的检测。


       当运动独立性不可靠时,外观信息可以作为 MOD 的另一个提示,并用于 消除 由局部独立的背景运动 引起的背景中的错误检测。


多分支流编码模块和一个图像修复模块



Introduction:


       运动物体检测(MOD)是人类视觉系统的一项基本能力,可用于广泛的现实世界应用。


       视频中关于 MOD 的工作可以根据训练和推理协议的差异大致分为三类


               • 有监督训练/无监督推理 [27,15,26,8]


               • 有监督训练/半监督推理 [6, 30]


               • 无监督训练/无监督推理[17,21,29,32]。


               尽管监督和半监督方法取得了优异的性能,但它们严重依赖大量的精细标记数据,这些数据稀缺且昂贵。为了缓解这些问题,越来越多的精力花在如何有效地挖掘未标记数据的内在信息来监督模型训练上。



       由于一个运动对象 可以 由多个时间尺度的运动区域 组成,一个时间尺度的时间信息可以简单地编码对象的一部分。例如,在图 1A 中,从 t 到 t+1 的光流捕获了舞者左腿的运动(较小的绿色框);从 t 到 t + 2 的流程图捕获了他的右腿和身体的运动(较大的绿色框)。不同帧之间舞者的光流图捕捉人体不同的运动区域。


单一尺度的时间信息 不足以进行 全面的MOD


联合运动 导致 违反运动独立假设



       基于上述分析,当前方法无法对物体的多尺度运动进行编码,也无法处理由移动摄像机引起的问题。


       为了解决这些问题,本文提出了一种 多运动和外观自监督网络(MASNet),将多尺度时间信息和空间外观信息引入CIS(Contextual Information Separation)[32] 用于 MOD。


多分支流编码 (MFE) 模块 2. IMage InPainter (IMIP) 模块。 


               • MFE 模块 同时接收多个光流图,对多尺度运动信息进行编码,并在不同时间尺度上聚合检测 以形成最终检测。通过这种方式,可以利用多尺度时间信息来生成更全面的检测。


               •  IMIP 解决 由摄像机移动引起的问题。特别是当相机在移动时,运动信息并不完全可靠。为了区分对象与背景并消除背景中的错误检测,IMIP 诉诸于 空间外观信息。这基于物体外观与背景不同的假设。


                       当检测在背景中时,IMIP 可以 利用周围的外观信息 来恢复它,从而强制掩码生成器产生更好的检测。类似地,对于运动物体中的漏检,IMIP 可以通过周围区域的外观来 推断被遮挡的区域。



Contributions


               •  MFE 模块 旨在 引入各种尺度的运动信息 来 聚合不同时间尺度上的检测,从而实现更完整的运动物体检测。 


               •  IMIP 利用空间外观信息 来加强 对生成器的新维度的监督。


               •  进行综合实验以验证所提出的 MFE 和 IMIP 的有效性,并证明本文的 MASNet 对最先进的方法的优越性能。



       [32] 提出了第一个基于深度学习的无监督运动目标检测方法,其中 对抗性学习框架 旨在利用运动场中目标和背景的独立性来生成运动区域。


       


       本文的工作 与 密切相关的工作 [32] CIS 的差异


               1. 多分支流编码模块在训练阶段每次迭代 引入多尺度运动信息,而不是涉及一种时间信息


               2. 除了运动信息,我们的方法还考虑了外观信息。基于对象和背景之间的不同特征,设计了一个 图像修复模块 来增强生成器的监督信号。




目标检测heatmap 半监督_生成器


 


       图3。MFE 模块由几对生成器和流修复器组成。生成器将图像 I、时间 t 及其相应带有帧的光流图 F1, ..., FN , 在时间 t1, ..., tN 作为输入,对多尺度运动信息 进行编码 并 生成各种运动分割掩码。图像 I、分割掩码 M 和 掩码流映射图 Fm 被转发到 流修复器


               除了针对每个运动尺度的流修复器 flow inpainter 之外,还引入了一个 额外的流修复器 来恢复 N 帧上的平均运动


图像修复器 重建 掩码图像,从外观维度提供监督信息



       MOD的对抗性学习:



目标检测heatmap 半监督_目标检测_02



               图 4 。基本思想是基于目标和上下文运动的独立性假设


               生成器 生成一个掩码,修复器 无法从上下文运动中 推断出 掩码区域中的运动。但是,流修复器是从掩码中恢复运动图。这会产生一个 最小-最大问题



目标检测heatmap 半监督_生成器_03


       MFE 


               多尺度生成器和修复器的 每个分支的损失函数为:



目标检测heatmap 半监督_生成器_04

目标检测heatmap 半监督_生成器_05




平均流修复器和生成器的目标函数为:



目标检测heatmap 半监督_目标检测_06




提供额外的监督信息



IMIP:图像修复器和生成器构建了一种 对抗性学习 关系以相互竞争。


               当生成器生成的 掩码不准确(包含部分背景或前景)时,IMIP 可以从周围的外观信息中推断出图像中的掩码区域。生成器的目标是 使 IMIP 无法恢复被掩码的区域,因此它需要 生成准确的目标掩码


               目标函数为:



目标检测heatmap 半监督_生成器_07


训练MAENet


               一对对抗网络并不容易训练,更不用说在一个联合的网络中训练这么多对抗模块。


               为了减轻培训过程的难度,本文提出了一个交替培训计划


首先训练 MFE 模块,直到它稳定为止。然后使用 来自冻结的训练得到的生成器 输出的掩码 训练 IMIP。在训练完 IMIP 之后,继续用固定的 IMIP 训练 MFE,这样 生成器 就可以 同时受到运动和外观信息的监督。最后训练的生成器用于推理以检测运动物体。




目标检测heatmap 半监督_生成器_08


       图6。黄色实线和虚线框分别表示 MFE 更擅长捕捉运动边界和各种运动尺度,浅蓝色实线和虚线框分别表示 IMIP 可以捕捉相对静态的前景部分和动态的背景部分



       •  与基线相比,本文设计了一个 多分支网络来引入多尺度运动信息,以便在训练和推理阶段,网络可以 利用足够的时间信息 来准确捕获 来自目标 不同运动区域的运动。从度量 Js 和 Fs 中,MFE 还可以提高模型的稳定性。 MFE 有利于准确的运动捕捉。



       •  IMIP 可以成功地抑制背景中的错误检测,归因于外观信息的利用。



       MFE 和 IMIP 确实解决了基线方法中的两个问题:1)运动利用不足,2)移动相机


       •  由于物体的变形,物体的不同区域 具有 不同的运动信息。通过在训练中引入多尺度信息,模型可以在每批中获取更丰富的运动信息,这对于可变形目标尤其重要。


       •  移动相机来捕捉移动的物体,这导致了移动的背景,并且它的运动 并不完全独立于 物体。


               仅运动信息的 motion only 方法不足以处理运动物体检测问题。在 IMIP 的帮助下弥补了基线的缺点并获得了有希望的改进。



       本文的方法可以更准确地检测人体的可变形部分,并且可以抑制背景的检测



Conclusion


               提出了一个 MASNet,分别通过 多分支流编码 (MFE) 模块 和 图像修复 (IMIP) 模块 引入多尺度运动 和外观信息 来执行 自监督运动目标检测。


               这两个模块专门设计用于解决单一运动尺度和移动相机问题。


MFE 时间 聚合各种尺度的信息,以捕获运动空间中 目标区域的不同尺度,其中单尺度运动可以简单地捕获目标的一小部分。


               移动相机问题导致 不独立的 前景和背景运动 以及 局部独立的背景运动。因此,纯运动信息不足以区分目标和背景。


IMIP 通过编码目标和背景之间的 空间差异,提供了一种新的信息维度,即外观


               提出的模块的功效和 MASNet 的优越性在 DA VIS 数据集上进行了广泛的评估。