导言

这篇文章有4篇论文速递信息,涉及目标跟踪、GAN、Zero-Shot Learning、视频分类和行人重识别等方向(含一篇IJCAI 2018和一篇IROS 2018 submission )。

CVer

编辑: Amusi

校稿: Amusi

前戏

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、fork和pull。

直接点击“阅读全文”即可访问daily-paper-computer-vision。 link: https://github.com/amusi/daily-paper-computer-vision

Image Classification

《Detection-Tracking for Efficient Person Analysis: The DetTA Pipeline》

IROS 2018 submission

The presented pipeline

Abstract:在过去的十年中,很多机器人都被部署在户外,行人检测和跟踪是此类部署的重要组成部分。最重要的是,经常需要运行模块来分析人员并提取更高级别的属性,如年龄和性别,或者动态信息,如注视(gaze)和姿势。后者对于构建一个反应性的(reactive)社交机器人 - 人员交互尤为必要。

在本文中,我们将这些组件组合在完全模块化的检测跟踪分析流程(pipeline)中,称为DetTA。我们通过使用一致的跟踪ID来对分析模块的观测结果进行时间滤波(temporal filtering),在头部和骨骼姿态的例子中研究这种集成的好处,显示出在具有挑战性的真实世界情景中略有改善。我们还研究了所谓“自由飞行”(free-light)模式的潜力,其中人员属性的分析仅依赖于过滤器对特定帧的预测。在这里,我们的研究表明,这极大地提高了运行时间,而预测质量保持稳定。当在移动平台上运行许多分析组件时,特别是在代价很高的深度学习方法时代,这种见解对于降低功耗和共享宝贵的(GPU)显存尤其重要。

arXiv:https://arxiv.org/abs/1804.10134

github:https://github.com/sbreuers/detta

GAN & Zero-Shot Learning & Video Classfication

《Visual Data Synthesis via GAN for Zero-Shot Video Classification》

IJCAI 2018

Architecture of the proposed framework

Abstract:视频分类中的Zero-Shot Learning(ZSL)是一个有前途的研究方向,旨在应对视频类别爆炸性增长带来的挑战。大多数现有的方法通过学习视觉和语义空间之间的投影(projection)来利用看不见的相关性。然而,这种基于投影的范式不能充分利用数据分布中隐含的区分信息,而且常常遭受由“异质性差距”(heterogeneity gap)引起的信息退化问题。在本文中,我们通过GAN提出了一个可视化数据合成框架来解决这些问题。具体而言,利用语义知识和视觉分布来合成未见类别的视频特征,并将ZSL转化为具有综合特征的典型监督问题。首先,我们提出了多层次的语义推理来促进视频特征合成,通过特征层次和标签层次语义推断来捕获联合视觉语义分布所蕴含的判别信息。其次,我们提出匹配感知互信息相关来克服信息降级问题,该问题通过互信息捕获匹配和不匹配视觉语义对中的看不见的相关性,为 zero-shot 合成过程提供鲁棒的引导信号。在四个视频数据集上的实验结果表明,我们的方法可以显着提高 zero-shot 视频分类性能。

arXiv:https://arxiv.org/abs/1804.10073

注:作为CV初学者表示,最近Zero-Shot Learning的曝光量很足啊!GAN的魅力依旧那么强!

Generative Model

《Generative Model for Heterogeneous Inference》

arXiv 2018

Overview of our proposed EAR model

Abstract:例如生成对抗网络(GAN)和变分自编码(VAE)等生成模型(GM)近年来蓬勃发展,并在生成新样本方面取得了高质量的结果。特别是在计算机视觉领域,GMs已经被用于图像修复(image inpainting),去噪(denoising)等领域,其可以被视为从观察像素到被破坏的像素的推断(inference)。然而,图像是分层结构的,与许多具有非分层特征的真实世界推断场景截然不同。这些推断方案包含异构随机变量和不规则的相互依赖。传统上它们是由贝叶斯网络(BN)建模的。然而,BN模型的学习和推理是NP-hard的,因此BN中的随机变量数量受到很大限制。在本文中,我们采用典型的GMs来实现多项式时间(polynomial time)的异构学习(heterogeneous learning )和推理。我们还提出了一个扩展的自回归(EAR)模型和一个带有对抗损失的EARA模型,并给出了它们有效性的理论结果。对几个BN数据集的实验表明,与其他GM相比,我们提出的EAR模型在大多数情况下实现了最佳性能。除黑箱(black box)分析外,我们还对GMs的马尔可夫边界推理进行了一系列白盒(white box)分析实验,并给出了理论结果。

arXiv:https://arxiv.org/abs/1804.09858

注:很硬的论文啊!

Re-ID

《Domain Adaptation through Synthesis for Unsupervised Person Re-identification》

arXiv 2018

Unsupervised Domain Adaptation

Semantic Shift Regularization

Domain translation results

Abstract:监控摄像机照明(illumination)的巨大差异使得行人重识别问题极具挑战性。目前的大规模重识别(re-identification)数据集具有大量的训练主题,但缺乏光照条件的多样性。因此,训练好的模型需要微调(fine-tuning)才能在看不见的照明条件下变得有效。为了缓解这个问题,我们引入了一个新的合成数据集,其中包含数百个照明条件。具体而言,我们使用100个虚拟人照亮多个HDR环境地图,这些地图可精确模拟真实的室内和室外照明。为了在看不见的照明条件下获得更好的准确性,我们提出了一种新颖的领域适应技术,它利用我们的合成数据并以完全无监督的方式进行微调。我们的方法比半监督和无监督的最先进的方法具有更高的准确性,并且与监督技术非常具有竞争力。

arXiv:https://arxiv.org/abs/1804.10094