【笔记】一些Attention 方面的网络

原创

公号机器学习与AI生成创作 2021-08-01 14:22:23 ©著作权

©著作权归作者所有：来自51CTO博客作者公号机器学习与AI生成创作的原创作品，请联系作者获取转载授权，否则将追究法律责任

【笔记】一些Attention 方面的网络_细粒度

视觉注意力的成功主要归功于这样的合理假设：人类视觉并不是一次性处理整个图像,相反，人们只关注整个视觉空间的某些选择性部分,这视需要而定Control of goal-directed and stimulus-driven attention in the brain （https://www.nature.com/articles/nrn755）

1.0 Attentive Systems: A Survey

2017_IJCV, 期刊.International Journal of Computer Vision
包含两篇2017年文章,大多是好几年前的文章
Attentive Systems: A Survey(https://link.springer.com/article/10.1007/s11263-017-1042-6)

1.1 非神经网络Attention: 区域显著性检测(物体识别)

2014_二区: IEEE Transactions on Circuits and Systems for Video Technology 新加坡南洋理工大学
本文是2010年的ACM MM会议论文的基础上进行扩展的.
为了找到语义和感知上有意义的显著区域, 本文基于自适应均值shift算法作为显著性检测的基本要素. 根据高斯混合模型(GMM)聚类结果来计算各个超像素的显著性. 为了传播聚类间的显著性, 本文采用改进后的PageRank来优化显著图.
由于对象通常对应着显著区域, 本文通过将显著图映射到基于编码的稀疏空间金字塔匹配(sparse coding-based spatial pyramid matching,ScSPM), 为了让编码更具有辨别性且与对象特征更加对应, 本文提出了用于特征编码的加权稀疏编码. 此外文章还提出了显著加权最大池化方法,进一步强调显著区域在特征池模块中的重要性.
显著性计算过程：
- 用adaptive mean shift进行超像素分割
- 用平均颜色表示超像素
- 将超像素集合做为GMM的输入，得到K个cluster
- 计算每一个cluster的compatness，并作为cluster的显著性（假设：背景区域很分散，而对象区域很集中。故cluster的空间分布越是紧密，越显著）
- 对每一个cluter进行PageRank（CVPR13有一篇论文就是采用的Manifolds Rank，具有一定的相似性）
- 计算最终的显著性，即超像素的显著性=sum(超像素属于cluster i的概率*cluster k的PageRank)
对象识别:
- 传统框架：Sparse Coding + SVM
- 在学习字典的时候，目标函数中加入了显著性做为权重，但是对目标函数的优化方法不影响
Region-Based Saliency Detection and Its Application in Object Recognition(https://ieeexplore.ieee.org/document/6587754/)

1.2 强化学习调整卷积核Attention: dasNet

2014_NIPS 瑞士AI实验室IDSIA（人工智能研究所）
在训练完成后，通过强化学习（可扩展的自然演化策略, Separable Natural Evolution Strategies）来动态改变attention。具体来说，attention调整的是每个conv filter的权重（和SENet相似，都是channel维度）。policy是一个neural network.
目标是让系统自动检查内部CNN过滤器的用处, 通过强化学习,让内部注意力在那些(从图像中提取到某些特征的)过滤器中进行选择。
Deep Networks with Internal Selective Attention through Feedback Connections(http://cn.arxiv.org/abs/1407.3068v2)

1.3 注意力模型_图像字幕(Show, Attend and Tell)

2015_ICML 蒙特利尔大学(umontreal)
第一个提出字幕图像中的Attention模型。
提出两种基于注意力机制的图像描述生成模型:
- 使用基本反向传播训练的Soft Attetnion方法
- 使用强化学习训练的Hard Attention方法.
且论文还可视化注意力模型.
文章引入了一种基于Attention模型，可自动学习来描述图像的内容。文章描述了如何让BP以确定性方式训练该模型，并通过最大化变分下界来随机地训练该模型。文章还通过可视化展示模型在输出序列中生成相应单词的同时，attention其显著对象。
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention(https://arxiv.org/abs/1502.03044v3)

1.4 多尺度感知(Attention)的语义图像分割

2016_CVPR 加利福尼亚大学洛杉矶分校(ucla)
提取多尺度的特征主要有两种网络结构:
- skip-net: 将网络中不同层的特征提取出来, 合并(concat)成一个特征,实现多尺度特征.
- share-net: 将图像先进行多个尺度缩放得到多张不同尺度的照片, 然后分别输入网络,得到不同尺度的特征.
本文采用share-net,但如何对不同尺度的特征进行融合? 以往采用max pooling或 average pooling,而论文提出尺度感知(Attention),对多尺度输入图像特征进行加权求和(逐像素).
注意力模型(Attention model)来训练得到各个尺度的权重, 论文中的Attention Model是一个两层的卷积结构.
Attention to Scale: Scale-aware Semantic Image Segmentation(http://cn.arxiv.org/abs/1511.03339v2)

1.5 Top-down的Attention模型(含新的激励反响传播)

2016_ECCV 波士顿大学 Boston
本文目标是对CNN分类器的自顶向下的Attention建模，生成特定任务的注意图。受到自上而下人类视觉注意模型的启发，文章提出新的反向传播方案，称为激励反向传播（Excitation Backprop），在Winner-Take-All概率过程中, 信号将从网络层次自上而下地向下传递。此外，文章还引入了 **对比关注(contrastive attention)**的概念，使得自顶向下的attention map更具有区分性和多样性。
由于希望能让神经网络在学习过程中的注意力更加有选择性（selective），这种选择性的一种实现就是 top-down，或者说层次化（hierarchical）, 且这也十分贴近真正的生物视觉机制。Seletive Tuning attention model(https://www.sciencedirect.com/science/article/pii/0004370295000259) 基于此方法提出了相应model: 即采用了一种相当于 binary 的 Winner-Take-All（WTA）方法，来选择出与这个 top-down 信号最相关的神经元。
本文是将top-down neural attention方法“泛化”到 probabilistic 版本，并基于此提出并实现了一种叫对比关注(contrastive attention)的机制，使得学出来的 attention maps 更加多样性(diverse) 和区分度(discriminative)。
Top-down Neural Attention by Excitation Backprop(http://cn.arxiv.org/abs/1608.00507v1)

1.6 注意力残差网络

2017_CVPR. 清华大学(tsinghua)
提出了一种基于Attention的残差学习方式(端到端),在前向过程中新增一个分支来作为提取模型的Attention(即Bottom-up Top-down的前向Attention机制).
Bottom-up Top-down 结构通过一系列的卷积和pooling，逐渐提取高层特征并增大模型的感受野,再反向类似操作up sample到原始输入尺寸(之间含有skip connection来从不同尺寸特征捕获信息).

注意,若直接用, 则会造成性能下降.
本文采用(soft mask): .
文章中对Attention的最后激活函数,设计了Spatial Attention ,Channel 和mixed Attention实验:
- Mixed(即sigmoid):
- channel:
- spatial:
实验证明Mixed的效果最佳. 前人研究通常只关注一种类型的Attention，如Scale attention或spatial attention. 这会通过权重共享或归一化对soft mask施加额外约束。但此结构让attention随着特征自适应地变化而没有额外的约束,从而获得最佳的性能。此外无其他分析.
对mask structures(即attention的结构)的encoder-decoder与local-convolution两种结构进行实验(无分析,encoder-decoder效果好).
对本文提出的结构进行Noisy Label鲁棒性分析: 打乱部分训练集label后再训练.
Residual Attention Network for Image Classification(http://cn.arxiv.org/abs/1704.06904v1)

1.7 空间和通道上的Attention: SCA_CNN

2017_CVPR, 浙江大学,腾讯AI Lab
结合Spatial-attention和Channel-wise Attention以及multi-layer, 应用在图像字幕分类上字幕.
- multi-layers即在多个结构上应用Attention
- Spatial attention: 基于空间上的Attention在15年就频繁应用了,作者在Related work中也大量引用文献(还只是引用了图像字幕方面的文献).
- Channel-wise Attention: 作者是从Semantic Attention的思想转换过来的, 这在related work中没发现较早应用. 之后的SE-net都是引用该文章的.
SCA额外添加的参数量很大, SE-net论文中说: 相比SCA_CNN, SE_net是轻量级且专注于对channel建模的机制.
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning(http://cn.arxiv.org/abs/1611.05594v2)

1.8 含多种attention技巧的人体姿态估计

2017_CVPR 香港中文大学(cuhk)
整合多内容信息注意力机制(multi-context attention mechanism)到CNN网络，得到人体姿态估计端到端的框架.
设计堆积沙漏网络(stacked hourglass networks) 生成不同分辨率特征的注意力图(attention maps)，不同分辨率特征对应着不同语义层次信息.
利用CRF(Conditional Random Field)对注意力图中相邻区域的关联性进行建模.
设计了新颖的沙漏残差单元(Hourglass Residual Units, HRUs)，增加网络的接受野. HRUs 扩展了带分支的残差单元，分支的 filters 具有较大接受野；利用HRUs可以学习得到不同尺度的特征.
本文介绍的多种注意力都可直接加入现有的网络架构:
- 多分辨率注意力(Multi-Resolution Attention)
- 多语义注意力(Multi-Semantics Attention )
- 分层注意力机制(Hierarchical Attention Mechanism)
Multi-Context Attention for Human Pose Estimation(http://cn.arxiv.org/abs/1702.07432v1)

1.9 STNet：选择性调整CNN(目标定位)(STNet: Selective Tuning of Convolutional Networks for Object Localization)

2017_ICCV 约克大学(yorku)
具有选择性调整的网络（STNet）是由自下而上和自上而下(Bottom-Up and Top-Down)的信息处理流组成，有选择地调整卷积网络的视觉表示.
有可靠证据的大量支持, 信息在整个视觉层次结构中被双向处理：
- 1)数据驱动的自下而上（Bottom-Up）处理流: 以某种信息转换的形式来处理输入数据。或说BU通过分层级联的信息处理方式,形成输入数据的可视表示.
- 2)任务驱动的自顶向下（Top-Down）处理流: 被认为是调制视觉表示以使任务需求得到完全满足。
各种视觉任务受益于BU处理范例，而TD处理很少被关注. 对visual attention建模的尝试归因于TD的处理范式, 这想法是: 在TD方式中,使用某种促进或抑制的形式,来对视觉表示进行选择或调整.
论文提出的STnet是高度稀疏且具有选择性的TD处理(只有一小部分(0.3%)TD流传向低层).它有选择地将高级任务驱动的注意力信号应用到视觉层次结构的早期阶段.
STNet: Selective Tuning of Convolutional Networks for Object Localization(http://cn.arxiv.org/abs/1708.06418v1)

1.10 非线性结合Global和Local features的视觉Attention(GALA).仿SE

2018_05. 未投布朗大学(brown)
Spatial attention(空间attention),用来学习去提升或抑制一些神经元的输出.
Feature-based attention(又称Channel-wise attention), 用来学习特征图间的他们的重要程度(如SE).
已经有其他研究者结合上面两方法用于单一学习任务.
人类的视觉attention有两步: Global pathy和Local pathy. Global features是在全局scene上所有的特征图进行统计求和平均,目的在于获取主旨(gist)如SE. 而local feature是用于提取出显著性信息(没看懂和Spatial attention的区别).
本文以非线性关系组合Local features和Global features, 来解决视觉识别问题.

是操作,得到
的 , 从得到的过程为:
- , 为激活函数
- 注意,上面的和是参数,而操作中的特征图变化为:
非线性组合:
- 控制和的每通道上的加法组合
- 同样控制它们的乘法组合.
- 由于通常不清楚任务受益于哪种attention组合公式，或说不知受益于加法组合还是乘法组合，所以定义学习控制这些相互作用的参数:
- 将和分别复制拓展(tile)成
- 再让, 其中是 ,让输出区间为
Global-and-local attention networks for visual recognition(http://cn.arxiv.org/abs/1805.08819v2)

1.11 空间和通道上的Attention用于FCNN图像分割.

2018_MICCAI会议.
分别对Spatial和Channel进行Attention, 然后修改信息流
和非线性结合Global和Local features的视觉Attention(GALA)(http://cn.arxiv.org/abs/1805.08819v2)非常相似, 只是GALA是非线性组合,而本文是直接相加.且在Spatial_Attention的具体操作上有些许不同.
Concurrent Spatial and Channel Squeeze & Excitation in Fully Convolutional Networks(https://arxiv.org/abs/1803.02579v2)

1.12 线性调节特征图的FiLM

2018_AAAI, MILA蒙特利尔学习算法学院
提出逐特征地线性调制(Feature-wise Linear Modulation,FiLM). FiLM层通过简单的特征仿射变换来影响神经网络计算。
FiLM可以看作是条件归一化的泛化(A generalization of Conditional Normalization).学习以某方式在条件网络中选择特征,它还使CNN能够正确定位到Question所相关的对象.
基于某些输入,FiLM通过将仿射变换或FiLM应用于网络的中间特征，学习自适应地影响神经网络的输出.
FiLM能根据调节信息选择性地提升或抑制特征图。其他人的工作是在在子网络级别选择，而FiLM在特征图级别选择。
如下图, 和都是由任意某网络学习得出.且图中的dot表示Hadamard product(阿达马乘积,即对应位置相乘):

FiLM: Visual Reasoning with a General Conditioning Layer(http://cn.arxiv.org/abs/1709.07871v2)

1.13 行人重识别(ReID)

2018-CVPR 伦敦玛丽王后大学
联合学习的卷积网络通过最大化不同层级的视觉Attention共同约束,在行人重识别的特征选择表达Attention上有优势, 具体来说,本文制定了Harmonious Attention CNN (HA-CNN,调和注意力CNN), 用于联合学习软像素注意力和硬区域注意力, 同时优化特征表示,致力优化图像中的未对齐行人的重识别.
本文考虑了联合深度学习关注选择和特征表示的问题，以便在更轻量级（更少参数）的网络体系结构中优化行人重识别。本文贡献是：
- (I)制定一种联合学习多粒度Attention选择和特征表示的新思想，以优化行人重识别。目前这是第一次尝试采用联合学习CNN的多重Attention补充来解决行人重识别问题.
- (II)提出HA-CNN模型.
- (III) 引入了cross-attention interaction(交叉关注相互学习)方案，以进一步增强注意选择和特征表示之间的兼容性，给出重识别的约束条件

全网络示意图

有两条分支,一条是LocalBranch, 一条是GlobalBranch:
- LocalBranch: 内含T条数据流(网络参数共享), 旨在学习T个在bounding box中最具有判别力的图像局部区域.
- GlobalBranch: 对学习图像的全局最佳特征.
- 每条Local branch处理一个region。每一个bounding box可以有T个regions.然后Global feature 与 Local feature 连接起来获得1024-dim feature，即是HA-CNN的输出

HA结构
灰色为包含BN和ReLU的卷积层棕色表示global average pooling 蓝色表示全连接层.

HA结构

灰色为包含BN和ReLU的卷积层

棕色表示global average pooling

蓝色表示全连接层.

Harmonious Attention Network for Person Re-Identification(http://cn.arxiv.org/abs/1802.08122v1)

1.14 空间变换网络STN

2015_NIPS Google.
该网络不需要关键点的标定，能够根据分类或者其它任务自适应地将数据进行空间变换和对齐（包括平移、缩放、旋转以及其它几何变换等）。在输入数据在空间差异较大的情况下，这个网络可以加在现有的卷积网络中，提高分类的准确性。
在传统的一层Convolution中间，装了一个“插件”，可以使得传统的卷积带有了"裁剪"、"平移"、"缩放"、"旋转"等特性；理论上，作者希望可以减少CNN的训练数据量，以及减少做data argument，让CNN自己学会数据的形状变换.
Harmonious Attention Network说它是Hard_region_Attention, SEnet说它可被纳入空间Attention.
Spatial transformer networks(http://cn.arxiv.org/abs/1506.02025v3)

1.15 反馈时对梯度的门控Attention: Look and Think Twice

2015_ICCV 中国科学技术大学
增加反馈机制(参考于此处(https://blog.csdn.net/baidu_17806763/article/details/59144952)):
- 人类的视网膜反馈明显比正馈能包含更多的连接。本文引进了背景反馈信息，能够激励我们发展计算反馈机制。
- 此外，在传统神经网络中的前馈中，反馈用来推测隐藏卷积层的激活状态根据网络的目标。我们把这个方法称为look and think twice.
- 反馈网络能够帮助我们更好的可视化和理解神经网络的工作原理，捕捉到期待物体的注意力信息，即使在背景比较复杂包含多个物体的情况下。
- 即主要意思就是，人类在看一张图片的时候，可能第一眼看过去也看不到某些信息，但是根据第一次看到的结果，再仔细看的时候，就能发现一些明显的隐藏信息在第一眼的时候被忽略了，而神经网络也是一样，在传递的过程中也会忽略一些信息，而增加反馈机制，就能提高网络解决实际分类和定位的问题的有效性。
提出的这个反馈网络给卷及网络增加了额外的灵活性，从而帮助其获得visual attention以及提高特征检测的能力.
反馈网络的选择性 :
- 重新解释了ReLUctant和Max-pooling的含义: relu和Max-pooling就像被输入控制的门一样，网络可以在反馈时进行选择，消除那些对最后决策影响比较小的因素 (然而这个机制有可能有用，也有可能会对分类产生不好的结果，并且引进了太多的噪声，比如，复杂场景中的聚类信息)
引入反馈层:
- 每层ReLU层后面引入反馈层，反馈层只有0,1 两个值，跟ReLU组成了一个混合控制单元。这个二进制的反馈节点被输出反馈回来的信息所控制，而不是被输入信息控制。
自底向上: ReLU层对固有属性的选择性，能够把有决定性的特征传递到后面。
自顶向下: 反馈层控制，将高层语义信息和全局信息传递到图像表达中。只有与这些门相关的目标神经元才会被激活。
Look and Think Twice: Capturing Top-Down Visual Attention with Feedback Convolutional Neural Networks(https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Cao_Look_and_Think_ICCV_2015_paper.pdf)

1.16 适合Attention的模型网络:堆砌沙漏StackHourglass_多尺度上整合处理空间信息

2016_ECCV 密西根大学(umich)
新的网络架构来完成人体姿态估计任务。Hourglass能把多尺度特征进行处理并整合，更好地捕捉与姿态相关的各种空间关系。
以重复的自下而上，自上而下的过程与中间监督一起使用对于提高网络性能至关重要。我们将这种架构称为“堆叠式沙漏”网络，这种网络基于汇总和上采样的后续步骤，以产生最终的预测集
该设计可被当作Attention的网络机制.(如Residual attention network for image classification(http://cn.arxiv.org/abs/1704.06904v1)和Multi-Context Attention for Human Pose Estimation(http://cn.arxiv.org/abs/1702.07432v1))
Stacked hourglass networks for human pose estimation(http://cn.arxiv.org/abs/1603.06937v2)

1.17 适合Attention的模型网络:Inside-Outside Net_考虑上下文和多尺度信息

2016_CVPR 康奈尔大学(Cornell)
关注目标检测过程中的上下文信息以及多尺度信息两个方面.提出了Inside-Outside Net:
- Inside Net:采用skiping pooling的方式连接不同层次上的卷积层输出feature map，来实现多尺度特征的融合
- Outside Net: 采用IRNN的结构，整合contextual infomation.
Inside-Outside Net: Detecting Objects in Context with skip pooling and Recurrent Neural Networks(http://cn.arxiv.org/abs/1512.04143v1)

1.18 精细分类:Multi-Attention同时学习部位位置和细粒度特征MA_CNN

2017_ICCV 中国科学技术大学, 微软.
精细分类(如不同鸟类的区分)需要很好去识别区分物体部位定位和区域细粒度特征, 以往的方法是单解决一种, 但物体部位定位（例如，鸟头）和细粒度特征学习（例如头形）是相互关联的, 本文提出Multi-Attention网络, 自适应的寻找关键区域, 通过组合完整图像区域和关键区域图像特征进行图像分类
MA-CNN由卷积层, Channel grouping 网络, 以及物体部位分类子网络构成.
- Channel grouping 网络通过从空间相关的信道进行聚类,加权和pooling 来生成更多物体部位特征.
- 物体部位分类子网络通过单独分类,让网络获得细粒度区分能力.
另外文章还提出两种损失函数,分别适应于Channel grouping和物体部位分类网络.
能端到端训练学习.
Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition(https://ieeexplore.ieee.org/document/8237819/)

1.19 精细分类: 挑选filter构建特征表达

2016_CVPR, 上交
某些特定部分的高度局部化和细微差让精细分类困难, 先前论文大多依赖于部位的标注. 本文提出自动细化识别方法.:
- (1)找出独特的过滤器，这些过滤器对特定的图案进行显着且一致的响应，并通过在新的正采样采集和零件(物体部位)模型再训练之间迭代交替来学习一组零件检测器
- (2)通过Fisher矢量的空间加权组合汇集深层过滤器响应(选择一些深层过滤器的响应,并将响应的编码结果作为最终表示).
提出了新颖的自动part detection方法:
- 先用原始的selective search(物体检测常用)方法提取一些patch(图像区域),传入普通网络发现有些通道对一些特定图案响应，而有些响应十分混乱.作者的初始化方式的关键点就在于精巧地选择响应显著且一致的deep filters
- 作者从每个类别挖掘正样本，并对每个正样本引进正则项，以考虑正样本的异同。学习之后的检测器可以发现有区别的和一致的patch，这对基于part的识别有帮助。
采用了新的适用于细粒度图像识别的特征提取方法:
- 传统的特征表达都使用CNN来实现，但CNN来提取不可避免地包含了大量背景信息，而且一些姿势变化和部分重叠都会影响到检测和识别。
- 而作者将deep filter响应视为用于定位的描述符，将其通过Spatially Weighted Fisher Vector (SWFV-CNN)编码。通过SWFV-CNN，对识别很重要的部分会被强调，这样就可以实现让网络有条件地选择那些需要的描述符。
Picking Deep Filter Responses for Fine-Grained Image Recognition(https://ieeexplore.ieee.org/document/7780497/)

1.20 编码-解码结构网络, 可用于Attention结构

1.20.1 FCN, 图像分割

2015_CVPR
从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类
用卷积和反卷积上采样.需要训练三次.得到的结果还是不够精细,没有充分考虑像素与像素之间的关系.
进行upsampling的方法就是对feature map进行反卷积,然后和高分辨率层的feature map相加.
Fully Convolutional Networks for Semantic Segmentation(https://arxiv.org/abs/1411.4038v2)

1.20.2 U-Net:综合考虑不同层级特征

2015_MICCAI 计算机科学系和BIOSS生物信号研究中心,德国弗莱堡大学
U-net 是基于FCN的一个语义分割网络,适合用来做医学图像的分割. 它在GAN上也有研究应用.
将 FCN 修改为 U-Net.主要是上采样阶段，同样也有许多特征通道，这样网络可以传递更多的 context 信息到 higher resolution 网络层.
Unet进行upsampling的方法和FCN一样
一种编码器-解码器结构。编码器逐渐减少池化层的空间维度，解码器逐步修复物体的细节和空间维度。编码器和解码器之间通常存在shortcut，因此能帮助解码器更好地修复目标的细节.
U-Net: Convolutional Networks for Biomedical Image Segmentation(https://arxiv.org/abs/1505.04597v1)

1.20.3 SegNet

2017_IEEE Transactions on Pattern Analysis and Machine Intelligence (1区,文章2015年5月发布.)
使用了对称的Encoder-Decoder网络结构来实现语义分割,用于逐个像素的语义分割
SegNet和FCN最大的不同就在于decoder的upsampling方法.
upsampling的方法和DeconvNet一样,进行unpooling,就是需要根据之前pooling时的位置把feature map的值映射到新的feature map上
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling(https://arxiv.org/abs/1505.07293)

1.20.4 DeconvNet

2015_ICCV
convolution-deconvolution结构的神经网络,和SegNet非常相似.
DeconvNet进行upsampling的方法就是进行unpooling,就是需要根据之前pooling时的位置把feature map的值映射到新的feature map上,unpooling 之后需要接一个反卷积层.
前面的convolution network 和SegNet的encoder部分是一样的,都是采用了VGG16的结构,只不过DeconvNet后面添加了两个全连接层.
Learning Deconvolution Network for Semantic Segmentation(https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Noh_Learning_Deconvolution_Network_ICCV_2015_paper.pdf)

1.21 细粒度多类图像识别中的Multi-Attention约束

2018_百度。
现在的细粒度图像识别都是孤立处理每个对象部分，而忽略它们之间的相关性。（1.18的《精细分类:Multi-Attention同时学习部位位置和细粒度特征MA_CNN》也是这样考虑） -现有的涉及多个阶段多规模机制使得现有方法效率低且难以端到端训练。
本文是采用一次挤压多次激励（OSME）模块学习每个输入图像的多个关注区域特征。
对于每个锚点特征，MAMC通过拉近相同注意力的同类特征来发挥作用，同时推动不同注意力或者不同类别的特征。
可以轻松应用到端到端训练。
还介绍了狗种类的数据集（如果论文被接受就公布）。
Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition(http://cn.arxiv.org/pdf/1806.05372v1)

1.22 基于Attention的编码器-解码器网络描述多媒体内容

2015年1月。作者有 Yoshua Bengio
Describing Multimedia Content using Attention-based Encoder–Decoder Networks(https://arxiv.org/pdf/1507.01053.pdf)
本文重点在软注意机制的对齐问题的一般方法上。广义上，注意机制是预测系统的组件，其允许系统顺序地关注输入的不同子集。子集的选择通常取决于系统的状态，系统本身是先前参与的子集的函数。
注意机制用于两个目的。
- 第一种是通过选择仅处理输入的子集来减少处理高维输入的计算负担。
- 第二是允许系统关注输入的不同方面，从而提高其为每个输出提取最相关信息的能力，从而改善所生成输出的质量。
软注意机制避免了硬选择要参加的输入子集，而是使用不同子集的软加权。由于处理了所有子集，因此这些机制不提供计算优势。相反，软加权带来的优势在于它很容易通过梯度反向传播进行有效学习。
本文回顾了最近将软Attention应用于结构化输出任务的工作，并对这一研究领域的未来发展进行了展望。软Attention机制是对更灵活的深度学习架构，该架构嵌入了一定数量的分布式决策。
本文描述的是基于内容的注意力机制，与本文最相关的是基于位置的注意力机制的神经网络。：
- 基于内容的注意力机制是计算输入的每个空间，时间或者时空局部区域的相关性。
- 基于位置的注意力机制是知己返回模型需要参加的区域，通常一坐标的形式。
基于位置的注意机制被成功用于建模和生成手写文本: Generating sequences with recurrent neural networks(https://arxiv.org/pdf/1308.0850v5.pdf)
神经网络被设计为使用基于位置的Attention机制来识别图像中的对象：
- 2015_Multiple Object Recognition with Visual Attention(https://arxiv.org/abs/1412.7755)：基于 attention 的用于图像中识别多个物体的模型, 利用RL来训练 Deep RNN，以找到输入图像中最相关的区域。
- 2014_NIPS_Recurrent Models of Visual Attention(https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf)：考虑时序上对场景进行Attention，用在如动态图像，玩游戏的agents。将 attention problem 看做是目标引导的序列决策过程，能够和视觉环境交互。也是利用了RL来训练。
早期关于利用Attention机制（包括基于内容和基于位置的）进行物体识别/跟踪的工作可以在下面三篇中找到:
- 需要同步感知和行动的任务非常困难，并且对机器学习和计算机视觉领域构成了根本性的挑战。这种任务的一个重要例子是通过一系列可控固定进行视觉识别的问题;这需要共同决定从注视中执行什么推理以及在哪里执行这些注视。
- 虽然这两个问题在单独解决时具有挑战性，但如果共同解决它们会变得更加艰巨。
- 最近，提出了一种受限制的玻尔兹曼机（RBM）模型，该模型可以学习有意义的固定策略并获得良好的识别性能。
- 在本文中提出了一种基于前馈自回归架构的替代方法，该方法允许精确计算训练梯度（给定固定序列），与RBM模型不同。关于面部表情识别的问题，我们证明了这种替代方法所获得的改进。此外，还研究了该模型的几种变体，以便阐明基于固定识别的成功策略。
- 提出了Fixation NADE（一种前馈，自回归架构），它将识别过程建模为一系列任务特定的注视，通过固定策略在不同位置提取，并展示如何训练Fixation NADE以了解什么和组件在哪里联合。
- Fixation NADE受到人类视觉系统的启发，并通过良好的固定策略了解要提取的局部特征和在何处提取它们
- 讨论了由注视数据驱动的同时对象跟踪和识别的注意模型。
- 本文引入了凝视选择策略，这些策略在部分信息和连续动作空间的存在下运行。现有方法直接扩展到部分信息设置会导致性能不佳，本文提出了一种基于将奖励表面建模为高斯过程的替代方法。这种方法在存在部分信息的情况下提供了良好的性能，并允许将动作空间从一小组离散的固定点扩展到连续域。
- 关键字：受限制的玻尔兹曼机器，贝叶斯优化，bandits，注意力，深度学习，粒子滤波，显着性。
- 具有三阶连接的Boltzmann机器的模型，可以学习如何在多个固定点上累积关于形状的信息。
- 该模型使用仅具有足够高分辨率像素的视网膜来覆盖图像的一小部分区域，因此它必须决定一系列固定，并且必须将每次固定时的“瞥见”与固定位置相结合，然后才能进行整合。信息与来自同一对象的其他瞥见的信息。
- 在合成数据集和两个图像分类数据集上评估此模型，表明它至少与在整个图像上训练的模型一样好。
- 2010_NIPS_Learning to combine foveal glimpses with a third-order Boltzmann machine(https://papers.nips.cc/paper/4089-learning-to-combine-foveal-glimpses-with-a-third-order-boltzmann-machine.pdf):
- 2012_Learning where to attend with deep architectures for image tracking(https://arxiv.org/pdf/1109.3737v1.pdf):
- 2014_IJCV_A Neural Autoregressive Approach to Attention-based Recognition(http://www.dmi.usherb.ca/~larocheh/publications/preprint_ijcv_2014.pdf):

1.23 不用RNN、CNN，只用Attention的：Attention is All You Need

2017_NIPS 谷歌
Attention Is All You Need(https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf)
Seq2Seq上的创新.只基于attention的结构来处理序列模型相关的问题，比如机器翻译。传统的神经机器翻译大都是利用RNN或者CNN来作为encoder-decoder的模型基础，而谷歌最新的只基于Attention的Transformer模型摒弃了固有的定式，并没有用任何CNN或者RNN的结构。该模型可以高度并行地工作，所以在提升翻译性能的同时训练速度也特别快。
论文中大部分的 Attention 都是 Self Attention，即“自注意力”，或者叫内部注意力。在序列内部做 Attention，寻找序列内部的联系。表明了内部注意力在机器翻译（甚至是一般的 Seq2Seq 任务）的序列编码上是相当重要的，而之前关于 Seq2Seq 的研究基本都只是把注意力机制用在解码端。
Position Embedding，也就是“位置向量”，将每个位置编号，然后每个编号对应一个向量，通过结合位置向量和词向量，就给每个词都引入了一定的位置信息，这样 Attention 就可以分辨出不同位置的词了。
Multi-Head Attention：将并行的Attention层的output拼接起来作为最终值。
最重要的创新应该就是Self-Attention的使用级联的Multi-Head Attention架构。

1.24 Progressive Attention Networks for Visual Attribute Prediction

2017_ICLR 拒了。
本文的RelatedWork中对Attention的总结值得看。

1.25 提出点积的soft-Attention方法的空间记忆网络VQA用于图像字幕

2016_ECCV
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering(https://arxiv.org/pdf/1511.05234.pdf)
首先提出点积对齐的soft-Attention方法。点积对齐函数首先将两个输入投影到公共向量嵌入空间，然后取两个输入向量的点积，并将softmax函数应用于得到的标量值，以产生每个候选的注意权重。
而Neural Machine Translation by Jointly Learning to Align and Translate(https://arxiv.org/abs/1409.0473)首次提出soft-Attention，但它是使用基于输入和每个候选者的“concatenation”的对齐函数（论文采用术语“concatenation”)。它在网络中增加了一个层，用于预测软权重并使用它们来计算内存中items的加权组合。。
本文解决视觉问题回答（VQA）的问题：
- 该问题需要联合图像和语言理解来回答关于给定照片的问题。
- 最近的方法已经将基于卷积 - 递归网络的深度图像字幕方法应用于该问题，但是未能对空间推理进行建模。
- 为了解决这个问题，本文提出了称之为空间内存网络的模型，并将其应用于VQA任务。
存储器网络是循环神经网络，具有明确的注意机制，其选择存储在存储器中的信息的某些部分。我们的空间记忆网络将来自图像的不同空间区域的神经元激活存储在其存储器中，并使用该问题来选择用于计算答案的相关区域，其过程构成网络中的单个“跳跃”。
本文提出了一种新颖的空间注意结构，它将单词与第一跳中的图像块对齐，并通过添加第二个注意跳获得改进的结果，该第二个注意跳考虑整个问题以基于第一跳的结果选择视觉证据。为了更好地理解网络学习的推理过程，我们设计了特别需要空间推理的合成问题，并可视化注意力。
现有模型的主要缺点是它们没有任何明确的对象位置概念，并且不支持基于空间注意力的中间结果的计算。我们的直觉是，回答视觉问题通常涉及查看不同的空间区域并比较它们的内容和/或位置。
我们提出了一种新的VQA深度学习方法，它结合了明确的空间注意力，我们称之为空间记忆网络VQA（SMemVQA）。我们的方法基于内存网络：
- 提出了一种新的多跳存储器网络，它具有空间关注VQA任务，允许人们可视化深层网络使用的空间推理过程
- 设计第一跳中的注意力架构，使用每个词嵌入来捕捉图像和问题之间的细粒度对齐，
- 创建一系列明确需要空间推理来分析网络工作原理的综合问题，以及表明它通过可视化注意力来学习逻辑推理规则
词向量编码成向量v，点乘上feature maps，对所有通道进行max（得到一张map），再经过softmax得到最终attention权重（一张map）。

1.26 提出concatation的软Attention机制用于机器翻译

2015_ICML，作者有 Yoshua Bengio
Neural Machine Translation by Jointly Learning to Align and Translate(https://arxiv.org/abs/1409.0473)
第一个提出软Attention机制（是concatation，非点积）
使用基于输入和每个候选者的“连接”的对齐函数（论文中用术语”concatenation“），用加权组合方法。将输出向量添加到候选特征向量中，将得到的向量嵌入标量值，应用softmax来产生候选的Attention权重。
常见的对齐关系计算方式有，点乘（Dot product），权值网络映射（General）和concat映射（multilayer perceptron）几种方式。（找不到这句话的来源）

【模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用】(https://zhuanlan.zhihu.com/p/31547842)

【笔记】一些Attention 方面的网络_神经网络_12