CVPR 2021 | 腾讯AI Lab入选论文解读

转载

公号机器学习与AI生成创作 2021-07-13 14:18:30

文章标签 CVPR 文章分类 人工智能

本文转自腾讯AI实验室

CVPR（Conference on Computer Vision and Pattern Recognition）是计算机视觉三大顶会之一，也是中国计算机学会推荐的人工智能领域的A类会议。

CVPR 2021 接收结果已于本月公布。今年有效投稿多达7500篇，一共有1663篇论文被接收，接收率为27%。其中腾讯 AI Lab 入选13篇，涵盖自监督表征学习、视觉内容生成、多模态理解与生成、3D感知、对抗攻防等方向。以下为论文解读。

自监督表征学习

自监督表征学习的研究场景为如何利用海量数据，在不经过人工标注的情况下，学习骨干网络从而对数据进行普适的表征。对数据良好的表征对于后续一系列的识别任务均有重要的影响。近两年，针对自然图像的表征学习引起了广泛关注。然而少有研究工作关注于视频以及三维信息的表征学习。今年有2篇表征学习的工作被接收。其中一篇关注于时序连续性的视频表征学习。另一篇关注于三维手部信息的重建任务。

1. 利用时序对抗样本进行对比视频表征学习

VideoMoCo: Constrastive Video Representation Learning with Temporally Adversarial Examples

本文由腾讯 AI Lab 独立完成。动量对比对自监督图像表征学习十分有效。本文提出视频动量对比来进行视频的表征学习。针对一段输入视频，我们从两个角度提升动量对比的方法。

第一，我们引入一个生成器从而进行时序上剔除若干帧的操作。对应的判别器应学会编码相似的表征从而克服缺帧的影响。

第二，我们采用一种时序衰减的方式来模拟在对抗学习中队列中元素的衰弱。由于动量编码器在元素入队列后进行更新，当我们利用这些元素进行对比学习的时候，其表征会逐步衰弱。

我们利用时序衰弱来模拟这些表征的衰弱，从而使得输入样本更关注于队列中最新的一些样本。通过以上两种方式，我们提升了视频的时序表征能力，在实验中取得了不错的效果。

2. 通过自我监督学习进行基于模型的3D手重建

Model-based 3D Hand Reconstruction via Self-Supervised Learning

本文由腾讯 AI Lab、武汉大学、纽约州立大学布法罗分校合作完成。重建三维人手模型对于人体行为分析和人机交互十分重要，而从单目图像中重建三维人手是一个病态问题，因而目前大多数方法十分依赖于使用大量三维标注数据用于训练神经网络。

本文提出一种自监督三维手部重建框架，在不使用任何人工三维和二维标注的情况下训练网络，其可有效估计手部姿态、形状、纹理和相机视角。基于此设定，本算法使用一个关键点检测器得到训练图片的含噪声的二位关键点伪标签，并通过三维模型与其二维投影的关系设置一系列自监督惩罚项来训练网络。

该算法第一次验证了不使用人工标注训练一个三维高精度人手重建网络的可能性。在实验数据集上，本研究提出的自监督算法实现了与最近的全监督算法相比较的精度。

视觉内容生成

内容生成近些年为视觉任务中至关重要的方向。研究工作针对编码器解码器结构，利用生成对抗学习的思想不断开拓解决一系列的视觉内容生成问题。今年有6篇该方向的文章被接收。其中做虚拟换装2篇，图像编辑和补洞2篇，图像风格转换和迁移2篇。

1. 无需解析，通过蒸馏外观流的虚拟换装

Parser-Free Virtual Try-on via Distilling Appearance Flows

本文由腾讯 AI Lab 主导，与香港大学合作完成。图像虚拟换装意在将目标衣服穿到目标人身上。先前的换装方法严重依赖人体解析。从而使得有差错的解析结果带来不真实的并有瑕疵的换装结果。最近有一项研究采用知识蒸馏的方法减少对人体解析的依赖，然而蒸馏的“学生”网络仍然受到了解析模型的影响。

为了解决这个问题，我们提出了老师-助教-学生的知识蒸馏网络。其将解析的方法产生的伪图作为助教信息，这张伪图中的瑕疵可以被真是的老师信息进行修正。老师信息则可以通过自监督的方式从真人图像中提取出来。另外，我们通过对外观流蒸馏的方式，提升的衣服图像和人物图像的对应精度，在标准数据库实验中取得了不错的效果。

2. 利用可拆解的循环一致性做高度逼真的虚拟换装

Disentangled Cycle Consistency for Highly-realistic Virtual Try-On

本文由腾讯 AI Lab 主导，与香港大学，瑞士苏黎世联邦理工合作完成。图像虚拟换装意在替换图像中人穿的衣服。这个任务的挑战性在于人和衣服没有配对数据从而无法进行有监督的学习。现有的方法通过内容填充或者原始的循环一致性来解决，这两种思路均是通过自监督的方法进行图像重建。然后，这些方法并没有区分衣服与非衣服区域，这样一个笼统的生成机制使得效果有限。

作为对比，我们提出一个换衣的循环模型，其通过肢解图像区域（衣服匹配，皮肤生成和图像合成）能够产生真实性强的换装效果。自此，我们的方法也是通过自监督的方式无须额外的数据源，并在数据集中验证有效。

3. 通过灵活的底层控制实现深度图像编辑

DeFLOCNet: Deep Image Editing via Flexible Low-level Controls

本文由腾讯 AI Lab、香港城市大学、湖南大学、虎牙合作完成。在图像编辑场景中，用户会将期望的视觉内容填充到输入图像的空洞区域中。粗糙的底层输入通常由稀疏的草图线和彩色点组成，传达用户创建内容的意图（即自由形式编辑）。尽管现有的方法将输入图像和底层控制信息作为神经网络的输入，但其对应的特征无法充分的代表用户的意图，导致期望的内容无法准确生成。

本文提出一个解决该问题的方法。不同于先前的将底层控制与输入图像相结合的方式，我们将这些控制直接注入神经网络中进行特征空间内的结构生成和颜色传播。然后我们将这些修改后的特征与最初的解码器特征进行结合进行结构的生成。

同时，我们引入另外一个支路进行纹理的修复。结构和纹理同时在解码器中进行合成，可以产生用户期望的内容效果。我们的方法在实验中得到了理想的成果。

4. 利用概率多样化生成对抗学习做图像补洞

PD-GAN: Probabilistic Diverse GAN for Image Inpainting

本文由腾讯 AI Lab、香港城市大学、湖南大学、虎牙合作完成。我们针对图像补洞，提出一种概率多样的对抗学习方法。对于一张有缺失的输入图像，我们的方法可以产生内容多样且均现实的内容。我们的方法由原始的对抗学习衍生出来。

在图像生成过程中，我们层次的调制输入噪声的深度特征。调制的方法由输入一个初始复原的图像和孔洞区域组成。我们注意到在补洞过程中，在孔洞附近的像素内容应确定而孔洞中心的内容应该更随机。至此，我们提出空间概率多样的归一化方法来确定孔洞区域的内容信息。

我们的方法可以在孔洞区域动态调整多样性和一致性，从而使得孔洞中心内容更多样，同时孔洞边缘内容与图像内容更一致。同时，我们提出一个感知多样的损失来增强内容多样性的生成。实验证明，我们提出的方法在图像修复场景能有效实现多样性和真实性。

5. 艺术流：通过可逆的神经网络流实现无偏的图像风格转换

ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows

本文由腾讯 AI Lab 主导，与罗彻斯特大学、百度研究院合作完成。普适的风格转换会将任意的艺术风格从参考图像转换到目标图像上。最近风格转换的方法在风格化和普适性方面均取得的不错的效果。然而，这些方法会泄露图像内容信息。

为了解决这个问题，我们提出了一个新颖的风格转换方法称为艺术流。其由可逆的神经网络流和一个无偏的特征转换模块构成。艺术流支持前向和逆向的预测，并且以一个投影转换和可逆的模式工作。在前向预测的过程中，图像被提取深度特征，这些特征在逆向的过程中能够无偏无损失的复原回图像。

大量的实验证明，我们提出的艺术流方法能够获得跟目前前沿风格转换算法差不多的效果，同时可以避免内容泄露带来的问题。

6. 非监督图像域转换风格隐空间平滑方法

Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation

本文由腾讯 AI Lab 与意大利特伦托大学合作完成。图像到图像多域转换的模型通常会使用视觉语义上的图像插值质量进行评价。但是，最新的模型通常会在垮图像域插值过程中呈现出明显的跳变或不真实的问题。

本文提出一种新的优化训练方法，即使用三种特殊损失代价函数，帮助模型在训练过程中学习到平滑且可分的图像风格隐空间，从而达到：

1）图像域内和域间插值过程中生成图像平滑渐变；

2）输入图像的主要内容信息能够较好保持。

此外，我们还提出一种新的评价测度，用来衡量图像风格隐空间的平滑程度。本文提出的方法可以直接应用到已有图像域转换模型。多个数据集上的实验结果表明，本文所提出的方法能够生成高质量的平滑渐变的插值图像结果。

多模态理解与生成

多模态研究的是如何同时基于视频、图像、文本、语音等不同模态的数据进行学习，这类技术能让 AI 更全面地学习有关这个世界的知识，也因此被认为是 AI 发展的未来方向，在自动驾驶、机器人、医疗和数字助理等领域都有重要的应用前景。今年有 3 篇相关论文被接收，其涵盖的主题主要是图像与文本的多模态理解与生成。

1.一种基于知识蒸馏的弱监督图像文本匹配模型

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

本文由腾讯 AI Lab 主导完成。弱监督的图像文本匹配旨在学习仅使用图像句子的对应来得到细颗粒度的图像区域和短语的对应. 因此，主要的挑战在于训练期间图像区域和句子短语之间缺少匹配的数据。

为了应对这一挑战，我们在训练时利用了通用的物体检测器知识蒸馏，并提出了利用对比学习来得到图像和文本细颗粒度匹配的新方法。我们的方法在弱监督的视觉区域和短语匹配任务上超越了以前的方法。

2. 针对场景图生成语义模糊性的概率性建模

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

本文由腾讯 AI Lab 主导，与清华大学、电子科技大学、香港中文大学（深圳）合作完成。为了生成“精确”表述的场景图，几乎所有现有的方法都以确定性的方式预测成对关系，我们认为视觉关系在语义上往往具有模糊歧义性。

具体来说，受语言学知识的启发，我们将歧义分为三类：同义歧义、上下义歧义和多视点歧义。这种模糊性自然会导致隐性多标签问题，也激发了对预测多样性的需求。在这项工作中，我们提出了一个新的即插即用概率不确定性建模（PUM）模块。它将每个联合区域建模为高斯分布，其方差度量相应视觉内容的不确定性。与传统的确定性方法相比，这种不确定性建模带来了特征表示的随机性，使得预测具有多样性。作为一个副产品，PUM还能够覆盖更细粒度的关系，从而减轻对频繁关系的偏见。

在大规模视觉数据集上的大量实验表明，将PUM与新提出的ResCAGCN相结合可以在平均召回度量下获得最佳性能。此外，我们通过将PUM插入到一些现有模型中，证明了PUM的普适性，文中也对其生成多样化但合理的视觉关系的能力进行了深入分析。

3. 基于特定动词语义的可控图像描述生成

Human-like Controllable Image Captioning with Verb-specific Semantic Roles

本文由腾讯 AI Lab 主导，与哥伦比亚大学、浙江大学、腾讯TEG数据平台部合作完成。过去几年来，可控图像描述生成（Controllable Image Captioning, CIC）——根据指定的控制信号生成图像描述——受到了前所未有的关注。为了模仿人类控制描述生成的能力，当前的CIC研究只关注与客观属性（例如感兴趣的内容或描述模式）有关的控制信号。

然而，我们认为几乎所有现有的客观控制信号都忽略了理想控制信号的两个不可或缺的特征：（1）事件兼容性：在一个句子中提到的所有视觉内容都应该与所描述的活动兼容；（2）样本适合性：控制信号应适合于特定的图像样本。

为此，我们提出了一种新的CIC控制信号：特定动词语义角色（Verb-specific Semantic Roles, VSR）。VSR由一个动词和一些语义角色组成，它们表示目标活动和该活动中涉及的实体的角色。在给定VSR条件下，我们首先训练一个语义角色定位标注（Grounded Semantic Role Labeling）模型来识别和定位每个角色的所有实体。

然后，我们提出了一种语义结构规划器（Semantic Structure Planner）来学习类似人的描述的语义结构。最后，我们用基于循环神经网络的角色转换描述生成模型来生成描述。

大量的实验表明，在两个具有挑战性的CIC基准测试中，我们的框架比几个强大的基准模型有更好的控制效果。此外，我们还可以轻松地生成多层次多样的描述。

对抗攻防

安全性为伴随深度学习网络结构发展而衍生出的问题。如何让网络能够抵御人为的误导，对深度学习的发展影响很大。今年有2篇该方向的文章被接收。其中1篇为首次在视觉跟踪中提出黑盒对抗攻击的方法，展示现有视觉跟踪算法的局限性，呼吁更多的研究关注这个方向。另外1篇为提取人脸高频信息从而能够辨别人脸图像是否有伪造过的痕迹，该方法具有很强的泛化性，能够适用于识别一系列的人脸伪造算法。

1. 交并比攻击：针对目标跟踪的时序连贯的黑盒对抗攻击

IoU Attack: Towards Temporally Coherent Black-Box Adversarial Attack for Visual Object Tracking

本文由腾讯 AI Lab 与上海交通大学合作完成。对抗攻击由分析神经网络的脆弱性衍生而来。最近，对抗性攻击已应用于视觉对象跟踪，以评估深度跟踪器的鲁棒性。目前的对抗攻击方法都是基于白盒的，即假设网络结构和参数已知。然而，实际应用场景中跟踪器的结构往往是未知的。

本文提出了一个针对目标跟踪的黑盒攻击方法。跟先前针对静态图像的黑盒攻击方法不同，我们提出交并比攻击从而能够基于预测的交并比分数来产生对抗扰动。除此之外，我们将当前帧产生的扰动迁移到后续帧进行时序运动攻击的初始化操作。在基准数据集上进行的大量实验表明，所提出的IoU攻击方法是有效的。

2. 基于高频特征的可泛化人脸伪造检测

Generalizing Face Forgery Detection with High-frequency Features

本文由腾讯 AI Lab 主导，与上海交通大学合作完成。当被应用于检测与训练时相同的算法伪造的人脸时，目前的人脸伪造检测方法已经获得较高的准确率。然而，在跨数据集检测（待检测的伪造人脸是由与训练时不同的算法伪造的）的场景下，现有的检测方法尚未取得满意的性能。我们分析发现目前基于CNN的检测方法倾向于过度拟合到某种造假算法所特有的纹理模式，因而缺乏泛化能力。

我们观察到图像的高频噪声不仅去除了颜色纹理，还暴露了真实和篡改区域之间的差异，因此利用高频噪声来提高人脸伪造检测器的泛化能力。

为了充分利用图像的高频特征，我们精心设计了三个模块。一是多尺度高频特征提取模块，该模块在多个尺度上提取高频噪声，以构成新的模态信息。二是残差引导的空间注意模块，该模块从新的角度引导底层的RGB特征提取器更加专注于伪造痕迹。三是跨模态注意力模块，该模块利用两个互补模态之间的相关性来促进彼此的特征学习。在多个基准数据集的实验表明我们所提出的检测模型具有优越的泛化性能。