作者丨 VincentLee 

极市导读

这篇论文提出用类特定控制门CSG来引导网络学习类特定的卷积核,并用正则化方法来稀疏化CSG矩阵。CSG的稀疏性能够引导卷积核与类别的强关联,且在卷积核层面产生高度类相关的特征表达,从而提升网络性能与可解释性。

Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters

grep去除第一行_互信息

论文地址:

https://arxiv.org/abs/2007.08194 论文代码: https://github.com/hyliang96/CSGCNN

Introduction


grep去除第一行_grep去除第一行_02

卷积神经网络虽然在多个视觉任务中有很好的表现,但可解释性的欠缺导致其在需要人类信任或互动的应用中受到限制。而论文认为类别与卷积核间的多对多关系是造成卷积网络可解释性差的主要原因,称之为filter-class entanglement。如上图所示,卷积网络通常提取包含多个语义概念的混合特征,比如类别、场景和颜色等,去除entanglement能够更好地解释每个卷积核的作用。

grep去除第一行_卷积核_03

受细胞分化的启发,论文提出在最后的卷积层中学习类特定卷积核,希望卷积核能够"分化"成针对不同类别的分组,如图1右所示,单个卷积核专门负责特定类别的识别。为了实现这个想法,论文设计了可学习的类特定门控CSG(Class-Specific Gate)来引导将卷积核分配给不同的类别,只有当特定类别作为输入时,对应卷积核输出的特征才能被使用。论文的主要贡献如下: 1、提出新的训练策略来学习更灵活的卷积核与类别的关系,每个卷积核仅提取一个或少量类别的相关特征。

2、提出通过卷积特征和类别预测的互信息来验证卷积核与类别的关系,并且基于此设计了一个度量方法来测量网络的filter-class entanglement。 3、通过实验证明论文提出的方法能够消除卷积核的冗余以及增强可解释性,可应用于目标定位和对抗样本检测。

Ideally Class-Specific Filters


grep去除第一行_卷积核_04

Problem formulation


grep去除第一行_互信息_05

为了让网络在训练中分化类特定卷积核,论文在标准的前行推理(standard path, STD)中引入可学习的类特定控制门(Class-Specific Gate path, CSG) ,用来有选择性地阻隔不相关特征维度。

The Original Problem

如上图所示,论文的目标是训练包含理想类特定卷积核的网络,网络参数为,包含两条前向推理路径:1、标准路径STD预测。2、包含矩阵的类特定门路径(CSG)预测。CSG将倒数第二层的输出乘以可学习控制门,为输入样本的标签。 为了找到准确描述类别与卷积核关系的控制门矩阵,需要在二值空间中搜索使得CSG路径有最好的分类效果,即优化问题,是one-hot编码,用来验证网络中分化的卷积核的性能,将加入到训练损失中作为正则化项,得到整体网络的优化目标:

grep去除第一行_卷积核_06

 保证准确率,引导的稀疏性。但公式1其实是很难优化的,首先很难保证每个卷积核是绝对地只对应一个类别,通常都是多类别共享特征,其次,非连续空间的二值向量很难通过梯度下降优化。

Relaxation

为了解决上面提到的两个问题,论文将one-hot向量放宽为稀疏连续向量,约束其包含至少一个等于1的元素()。另外,加入正则项来引导的尽量稀疏,当L1向量范数小于上界时,则不进行惩罚。的常规设计是,可以是各种范数,包括L1、L2和smooth-L1范数。的设置需满足,因为,共有K个。综合上面的方法,重新定义为:

grep去除第一行_优化问题_07

其中,为平衡因子,可看作是filter-class entanglement的损失函数,将替换公式1的得到放松后的完整的优化问题:

grep去除第一行_优化问题_08

公式3可通过梯度下降联合优化和得到类特定卷积核,而且能准确地描述卷积核与类别间的相关性,比优化原本离散的优化问题要简单得多。

Optimization

针对CSG算法的场景,论文提出PGD(approximate projected gradient descent)梯度下降来解决公式3的优化问题,当进行梯度更新后,会通过进行归一化,保证,然后裁剪到。

grep去除第一行_互信息_09

由于CSG路径阻隔了大部分的特征,所以CSG路径的梯度回传比STD路径弱很多,如果按正常的方式进行训练,收敛效果会很一般。为此,论文提出alternate training scheme,在不同的周期交替地使用STD/CSG路径的梯度。如算法1所示,在CSG路径的周期,使用梯度更新和进行更新,而在STD路径的周期,则使用梯度进行更新。根据实验验证,这种训练方法在训练初期的分类效果会周期性波动,但最终的训练效果比正常的训练方法要好,同时卷积核也能逐渐分化成类特定卷积核。

Experiment

Quantitative Evaluation Metrics

论文实验使用了3种指标来验证CSG的有效性:

classification accuracy,用来计算分类性能。 mutual information score,使用互信息矩阵 来计算类与卷积核的关系,矩阵元素 为卷积核 的特征值与类别 间的互信息。为了计算互信息,在多个数据集中采样 , 由所有样本的对应输出全局平均池化得来, 为类别, 的计算直接调用“sklearn.feature selection.mutual_info_classif”方法。互信息分数,分数越高,则filter-class entanglement现象越少。 L1-density,用来度量CSG的稀疏性,计算方法为

grep去除第一行_grep去除第一行_10

结果如表1所示,可以看到CSG网络在分类表现上仅比STD网络要稍微好一点,但其它指标要高出很多。

Visualizing the Gate/MI Matrices


grep去除第一行_互信息_11

grep去除第一行_grep去除第一行_12

为了展示卷积核与类别间的相关性,对控制门矩阵和互信息矩阵进行可视化: 图a表明CSG训练能得到稀疏的CSG矩阵,每个卷积核仅对应一个或少量类别。

图b1和b2则表明CSG网络比STD网络有更高的互信息得分。 图c表明图a和图b1的最大元素几乎是重叠的,卷积核能够按照稀疏的CSG矩阵进行学习。

Application


grep去除第一行_互信息_13

定位任务上的性能对比,这里的定位是直接通过特征图的大小进行定位,非Faster-RCNN之类的。

grep去除第一行_互信息_14

对抗样本检测任务上的性能对比。

Conclusion

论文提出类特定控制门CSG来引导网络学习类特定的卷积核,并且加入正则化方法来稀疏化CSG矩阵,进一步保证类特定性。从实验结果来看,CSG的稀疏性能够引导卷积核与类别的强关联,在卷积核层面产生高度类相关的特征表达,从而提升网络的性能以及可解释性。