每周论文推荐-0803

原创

mb594bbce661473 2022-12-09 19:59:18 ©著作权

文章标签 深度学习数据集卷积 文章分类 运维

©著作权归作者所有：来自51CTO博客作者mb594bbce661473的原创作品，请联系作者获取转载授权，否则将追究法律责任

每周论文推荐-0803_卷积

多读论文可以丰富我们的知识、拓展我们的视野，让我们领略其他智者的思想，让我们的思路也变得开阔起来。在此，鼓励大家多多阅读论文，挑些自己感兴趣的论文，仔细体会作者的思想，最好动手多多推研一下公式，相信你一定能收获不少灵感。

奉上本周份的10篇笔者认为不错的论文，希望诸位朋友也能从中有所收获。

1、An intriguing failing of convolutional neural networks and the CoordConv solution

每周论文推荐-0803_深度学习_02

内容概述：很少有一些新奇的策略能像卷积（Convolution）那样，对深度学习产生如此大的影响。对于涉及像素或空间表示的任何问题，一般都会认为卷积神经网络可能是最合适的。在本文中，我们通过看似微不足道的坐标变换问题(Coordinate Transform Problem)来给出了一个反例，该问题只需要学习( x，y )笛卡尔空间和one-hot像素空间中的坐标。尽管卷积网络看起来似乎很适合解决这项任务，但我们的实验显示结果却恰恰相反。我们先在一个toy problem上验证并分析了失败的原因，并给出了我们的解决方案。我们的解决方法称为CoorConv，它通过使用额外的坐标通道使得卷积可以访问自己的输入坐标。在不牺牲普通卷积的计算和参数效率的情况下，CoorConv允许网络根据最终任务的要求，学习完美的平移不变性（translation invariance）或不同程度的平移依赖性（translation dependence）。CoorConv用比普通的卷积少10 - 100倍的参数，以完美的泛化和150倍的速度解决坐标变换问题(Coordinate Transform Problem)。这种鲜明的对比提出了这样一个问题: 在其他任务中，这种inability of convolution在多大程度上持续存在，从内部潜移默化地阻碍模型的性能？这个问题的完整答案需要进一步研究，但我们初步证明，用CoorConv代替卷积可以对多种任务的模型进行改进。在GAN中使用CoorConv，可以产生较少的模式崩溃（mode collapse），因为高阶的空间延迟（high-level spatial latent）和像素之间的转换变得更容易学习。基于MNIST数据集，Faster R - CNN检测模型显示，当使用CoorConv时，IOU提高了24 %，在增强学习( RL )领域， Playing Atari游戏中，使用CoorConv层可以使agent显著受益。

2、Convergence Problems withGenerative Adversarial Networks (GANs)

每周论文推荐-0803_卷积_03

内容概述：生成对抗网络( GANs )是一种新的生成建模方法，其目标是学习真实数据的分布。它们经常被证明很难训练: GANs同机器学习中的很多其他技术不同，因为GAN被描述为discriminator和generator之间的双人游戏。这既造成了训练过程中的不可靠性，也造成了我们缺乏对GAN是如何收敛？如果收敛，又会收敛到哪里？等问题的理解。本文主要目的是介绍关于GANs的，比较mathematician的理论，突出正反两方面的结果。这包括如何鉴别训练GANs时存在的问题，以及GANs的拓扑（topology）和博弈论观点（game-theoretic perspectives）是如何帮助我们理解和改进我们近年来的技术的。

3、Feature Selection for Unsupervised Domain Adaptation using Optimal Transport

每周论文推荐-0803_数据集_04

内容概述：本文基于新兴的最优运输理论（optimal transportation theory），提出了一种新的，用于无监督领域自适应特征选择的方法。我们基于最近关于领域适应性（domain adaptation）中最佳传输（optimal transport）的理论分析，表明optimal transport可以直接给出一种利用域间转移的特征选择过程。在此基础上，我们提出了一种新的算法，旨在通过源域（source domain）和目标域（target domain）之间的相似性对特征进行排序，这种排序是通过分析我们所提出的最优运输问题的解的耦合矩阵（coupling matrix）来获得的。我们在一个著名的标准数据集上评估了我们的方法，并证明了它具有选择正确feature的能力，从而获得更好的分类性能。此外，我们还表明，所提出的算法可以作为现有领域自适应技术的预处理步骤，在保持可比结果的同时，在计算时间方面获得了巨大的加速。最后，在临床影像数据库上对算法进行了验证，并取得了良好的效果。

4、Latent Alignment and Variational Attention

每周论文推荐-0803_卷积_05

内容概述：Neural Attention力已经成为自然语言处理和相关领域中许多最新模型的核心架构。注意力网络（Attention network）是一种易于训练且有效的soft simulating alignment的方法；然而，这种方法在概率意义上并不排斥latent alignment。这种特性使得很难将注意力与其他对齐方法进行比较，难以将其与概率模型组合，也难以根据观察到的数据进行后验推断。另外一个相关的latent方法，即hart attention，解决了这些问题，但通常更难训练，也不太准确。本文主提出了变分注意力网络（variational attention networks），一种基于amortized variational inference的具有更紧密的approximation bounds的，用于替代soft attention和hard attention，学习latent variable alignment的解决方案。我们进一步提出减少梯度方差的方法，使这些方法在计算上可行。实验表明，对于机器翻译和visual question answering，效率低下的exact latent variable models优于标准的神经注意力模型，但当基于hard attention进行训练时，这些增益就消失了。另一方面，变分注意力（variational attention）具有很有优秀的性能，同时训练速度与神经注意力模型相当。

5、Learning Efficient Convolutional Networks through Network Slimming

每周论文推荐-0803_数据集_06

内容概述：卷积神经网络( CNNs )在许多实际应用中的部署在很大程度上受到其高计算成本的制约。本文提出了一种新的CNNs学习方法，同时实现以下目标: 1 )减少模型规模；2 )减少运行时的内存占用；3 )在不影响精度的情况下，减少计算操作的次数。这是通过在网络中以简单而有效的方式加强信道级的稀疏性（channel-level sparsity）来实现的。与现有的许多方法不同，该方法直接应用于CNN体系结构中，将训练过程的开销减到最小，并且所得到的模型不需要特殊的软硬件加速器。我们称之为“网络瘦身（network slimming）”方法，它以大而广的网络为输入模型，但在训练过程中，会自动识别不重要的通道（channels）并在训练结束后进行修剪，从而产生具有相当精确度且轻薄紧凑的模型。我们使用VGGNet、ResNet和densent等多种典型CNN模型，在各种图像分类数据集上实验验证了我们方法的有效性。对于VGGNet来说，network slimming使模型大小减少了20倍，计算操作减少了5倍。

6、The GAN Landscape: Losses, Architectures, Regularization, and Normalization

每周论文推荐-0803_深度学习_07

内容概述：生成对抗性网络( GANs )是一种深层生成模型（deep generative model），旨在以无监督的方式学习目标分布（target distribution）。虽然GAN成功地应用于许多问题，但众所周知，训练GAN是一项的很具挑战性的任务，需要大量的超参数调整（hyperparameter tuning）、神经架构工程和大量琐碎的“trick”。许多成功的实际应用，加上缺乏对于GANs失败可能性的量化，导致了大量proposed losses、正则化和归一化方案以及神经架构。在这项工作中，我们从实际的角度出发，清醒地看待GAN的现状。我们再现了GAN当前的状况，并对其未来发展进行了适当的探索。我们讨论常见的pitfall和raproducibility issues，在Github上开源我们的代码，并在TensorFlow Hub上提供预先训练的模型。

7、Towards more Reliable Transfer Learning

内容概述：多源迁移学习（Multi-source transfer learning）已被证明在目标内标记数据（within-target labeled data）稀缺的情况下是有效的。以前的工作主要集中在利用域相似性，并且假设source domain被丰富地或者至少是相对地标记。尽管这一强有力的假设在实践中从未成立，但本文适当忽略这一假设，着力于解决与不同标签量和不同的可靠性来源相关的挑战。第一个挑战是融合领域相似性（domain similarity）和源可靠性（source reliability），提出一种新的迁移学习方法，它可以同时利用源-目标相似性和源间关系。第二个挑战主要关于pool-based的主动学习（active learning），其中Oracle仅在源域中可用，从而形成了一个集成的主动迁移学习框架，其中包括分布匹配（distribution matching）和不确定性采样。在合成数据集和两个真实数据集上的大量实验有力证明，我们提出的方法优于包括state-of-art的迁移学习方法在内的多种baseline。

8、Universal Transformers

每周论文推荐-0803_深度学习_08

内容概述：Self-attentive前馈序列模型已经在序列建模任务上获得了令人惊艳的成绩，包括机器翻译、图像生成和句法分析，从而被认为可以替代传统的递归神经网络( RNNs )，而RNNs至今仍是解决许多序列建模问题的标准架构。然而，虽然取得了这些成功，但像Transformer这样的前馈序列模型任然未能获得广泛使用，因为有些问题用RNN处理非常容易，但Transformer却不行(比如，Transformer没法实现拷贝机制（copy mechanism）；并且，在推理（inference）阶段，遇到比trainin corpus中更长的句子时，Transformer没法处理)。此外，与RNNs相比，Transformer的计算速度更慢，这限制了其实际应用。本文提出了一种通用Transformer，它不仅能解决以上所以实践或理论上存在的问题，并在几个任务上都获得了性能的提高。通用Transformer不像RNNs那样，每次recurring只处理一个symbol，而是所有已经执行过的所有recurrent step都会参与计算，对每个step的representation都会进行revise。为了融合来自序列不同部分的信息，通用Transformer在每个recurrent step都采用self-attention mechanism。假设有足够的内存，通用Transformer的recurrence特性将提升它的计算效率。此外，我们还采用了自适应计算时间(adaptive computation time， ACT )机制，允许模型动态调整序列中每个位置的representation的修改次数。除了节省计算量，我们还表明ACT可以提高模型的精度。我们的实验表明，在各种算法任务和多种大规模语言理解任务上，通用Transformer的泛化效果明显优于普通Transformer和机器翻译中的LSTM模型，在bAbI推理任务和具有挑战性的LAMBADA语言建模任务上取得了最新的成绩。

9、Recent Advances in Deep Learning: An Overview

内容概述：深度学习是机器学习和人工智能研究的最新方向之一。也是当下最流行的科研方向之一。深度学习方法给计算机视觉和机器学习带来了革命性的进步。时不时地就会有新的深度学习技术诞生，超越最好的机器学习甚至是现有的深度学习技术。近年来，深度学习技术取得了许多重大突破。由于深度学习技术正高速发展，特别是对于新入门深度学习领域的研究人员来说，很难follow该领域新的一些技术。在本文中，我们将简要讨论下过去几年来深度学习的最新进展。

10、Manifold Adversarial Learning

每周论文推荐-0803_卷积_09

内容概述：最近提出的对抗训练方法提升了模型对对抗样本的鲁棒性，并在很多监督和半监督领域中取得了很多最优的结果。但所有现有的对抗训练方法都只考虑了最糟糕的干扰例子(即，对抗性例子)如何影响模型输出，所以，尽管他们取得了成功，但这种方法只针对极端样本，明显缺乏普适性。在本文中，我们提出了一种新的对抗学习方法，称为流形对抗性训练(Manifold Adversarial Training， MAT )。MAT是基于最坏的扰动（perturbation）如何影响manifold而不是output space来构建一个对抗学习框架。首先得到一个具有高斯混合模型( Gaussian Mixture Model, GMM )的latent data space。一方面，MAT试图以最坏的方式扰动输入样本，使其通过distribution manifold。另一方面，深度学习模型经过训练，试图在潜在空间中提升流形平滑度(manifold smoothness)，并通过Gaussian mixture的变化(给定数据点周围的局部扰动)来测量。更重要的是，由于潜在空间比输出空间更具信息性（more informative），因此所提出的MAT可以学习到更健壮紧凑的数据表示，从而进一步提高性能。在三个基准数据集上进行了一系列有监督和半监督的实验，结果表明，所提出的MAT能够取得显著的性能提升，远优于目前最优的对抗性方法。

每周论文推荐-0803_数据集_10