Adaptively Connected Neural Networks
introduction
CNN对比MLP的缺点:
由于只从像素的周围像素抽象出信息,所以每一层的CNN缺乏global inference的能力。(实际应用中,CNN通过堆叠大量的局部卷积操作老i获取全局推断的能力,但又具有计算无效率,优化困难,消息传递效率低等限制。)
解决CNN局部性的问题,有non-local network:但当non-locality增加时,训练精度和验证精度都会下降,作者推断是由于over-globalization。
所以基于上述两个问题(缺乏和过度),作者提出了(ACNet),主要贡献如下:
1,提出了一个概念简单但是功能强大的网络,网络可以学习对于通用数据集的全局推断和局部推断的能力。
2,是首个在计算机视觉和机器学习领域,继承了MLP和CNN的优点克服了他们的缺点的算法。
Adaptive-Connected Neural Network
x是输入信号(图像,声音,图矩阵等)获取对应的输出信号的方式如下:
表示输出信号的第i个输出节点(特征图中的第i个像素),j是一些可能和第i个节点相联系的节点。分为3个子集{第i个节点本身}{i节点的邻居节点N(i)}{所有可能的节点},这3个子集表明3中推断模式:自变换,局部推断,全局推断。表示可学习权重。
ACNet通过适应性学习的,这三个是简单的标量变量,可以在所有的channel上分享。通过固定,且定义
可以通过标准反向传播学习。是计算量高损耗的,应该这个等价于对特征图的全连接,可能导致潜在的过拟合,为了克服这个缺点,在加入该计算之前实践中通过对x进行下采样。
如果是标量。自适应决定全局/局部推断的连接,是一种对全部数据集的平均连接,可以表示为:
Relation to Rrior Works
<=> CNN
<=> MLP
NLN(non-local network)表示节点i和节点j之间的相似度,这会造成非常大的计算损耗且容易过拟合。我们提出的ACNet使用了可学的权重,且使用降采样解决全局推断的高计算量的问题。
Generalization to Non-Euclidean Data
Training,Inference,and Implementation
1,训练ACNet可以通过最小化损失函数实现。
2,适用于现在CNN的技巧,比如batch norm, short-cut等
experiment
论文中的实验都是分类或者检测,而不是像素级别的预测,在分割等任务中不一定有效。获取适应的全局推断和局部推断也是基于分类任务的思想。