导言

这篇文章有4篇论文速递信息,涉及胶囊网络、迁移学习、优化CNN和手指检测等方向(含一篇NIPS 2017、一篇ICMR 2018和一篇 VCIP 2017)。

CVer

编辑: Amusi

校稿: Amusi

前戏

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、fork和pull。

直接点击“阅读全文”即可访问daily-paper-computer-vision。 link: https://github.com/amusi/daily-paper-computer-vision

Capusle Networks & Transfer Learning

《Capsule networks for low-data transfer learning》

arXiv 2018

The full memo architecture

Abstract:我们提出了一个基于胶囊网络(capsule network)的框架,用于通过少数例子将学习推广到新数据。使用生成(generative)和非生成胶囊网络与中间路由(intermediate routing),我们能够生成比相似卷积神经网络快25倍的新信息。我们在缺少一位数字的multiMNIST数据集上训练网络。在网络达到其最大精度后,我们将1-100个缺失数字的样本放入训练集,并测量返回到可比较的准确度所需的批次数。然后我们讨论胶囊网络带来的低数据传输学习的改进,并为胶囊网络研究提出未来的发展方向。

arXiv:https://arxiv.org/abs/1804.10172

注:最近感觉Capsule Network不是很火了~

CNN

《Competitive Learning Enriches Learning Representation and Accelerates the Fine-tuning of CNNs》

NIPS 2017

(a) Network structure of a simple CNN (b) BP learning of conventional CNN (control condition). (c)Competitive learning.

Abstract:在这项研究中,我们提出将竞争性学习整合到卷积神经网络(CNN)中以改善表示学习和微调(fine-tuning)效率。传统的CNN使用反向传播学习,它可以通过区分任务实现强大的表示学习。但是,它需要大量标记数据,并且标记数据的获取比未标记数据的难得多。因此,有效使用未标记的数据对于DNN越来越重要。为了解决这个问题,我们将无监督的竞争学习引入卷积层,并利用未标记的数据进行有效的表示学习。使用玩具(toy)模型的验证实验的结果表明,强表示(strong representation )学习使用未标记的数据有效地将图像的基础提取到卷积滤波器中,并且加快了后续监督的反向传播学习的微调的速度。当滤波器数量足够大时,杠杆作用更明显,并且在这种情况下,在微调的初始阶段误差率急剧下降。因此,所提出的方法扩大了CNN中的滤波器的数量,并且使得更加详细和通用的表示。它不仅可以提供一个深层广泛的神经网络的可能性。

arXiv:https://arxiv.org/abs/1804.09859

Visual Estimation

《Visual Estimation of Building Condition with Patch-level ConvNets》

ICMR 2018

Visual appearance of the building elements roof (top row), facade (middle row), and window (bottom row) for the conditions very good, good, and poor.

Abstract:建筑物的状况(condition)是房地产估价的重要因素。目前,房地产估价师对房地产估价具有一定的主观性。我们提出了一种新颖的基于视觉的方法,用于从建筑物的外部视图评估建筑物状况。为此,我们开发了一种多尺度基于patch模式的提取方法,并将其与卷积神经网络相结合,从视觉线索估计建筑物状况。我们的评估显示,视觉估计的建筑条件可以作为评估师对状况估计的proxy。

arXiv:https://arxiv.org/abs/1804.10113

Finger Detection

《Two-Stream Binocular Network: Accurate Near Field Finger Detection Based On Binocular Images》

VCIP 2017

The pipeline of TSBnet

Abstract:指尖检测(Fingertip )在人机交互中起着重要作用。先前的工作是将双目(binocular)图像转换为深度图像。 然后使用基于深度的手姿势估计方法来预测指尖的三维位置。与以前的工作不同,我们提出了一个新的框架,名为双流双目网络(TSBnet),直接从双目图像中检测指尖。TSBnet首先共享左右图像低级特征的卷积图层。然后分别提取双流卷积网络中的高层特征。此外,我们添加了一个新层:双目距离测量层,以提高我们模型的性能。为了验证我们的方案,我们构建了一个双目手图像数据集,包含训练集中的约117k对图像和测试集中的10k对图像。 我们的方法在我们的测试装置上实现了10.9mm的平均误差,比以前的工作性能要好5.9mm(相对35.1%)。

arXiv:https://arxiv.org/abs/1804.10160

IEEE:https://ieeexplore.ieee.org/abstract/document/8305146/

Datasets:https://sites.google.com/view/thuhand17