论文题目:Removing Bias in Multi-modal Classifiers:
Regularization by Maximizing Functional Entropies
目录
- ==摘要==
- 研究目的
- 解决对策
- 实验结果
- ==介绍==
- ==知识补充==
- Fisher信息
- 函数熵
- log-Sobolev 不等式
摘要
研究目的
许多最近的数据集包含各种不同的数据模态,例如视觉问答 (VQA) 中的图像、问题和答案数据。在这些多模态数据集上训练深度网络分类器时,模态在不同的尺度上得到利用,即某些模态比其他模态更容易对分类结果做出贡献。但是分类器固有地偏向于使用来自单一模态的信息。
解决对策
为了减轻这个缺点,我们提出了一个基于功能熵的新 正则化项 。直观地说,该术语鼓励平衡每种模态对分类结果的贡献。本文设计了一种基于 log-Sobolev 不等式的方法,该方法将函数熵与函数 Fisher 信息绑定在一起。直观地说,这最大化了模态贡献的信息量。
实验结果
在两个具有挑战性的多模态数据集 VQA-CPv2 和 SocialIQ 上,我们获得了最先进的结果,同时更统一地利用了模态。此外,我们证明了我们的方法对彩色 MNIST 的有效性。
介绍
多模态数据无处不在,如果数据可以划分为语义特征,例如颜色和形状可以被视为多模态数据,则我们将其视为多模态数据。在多模态数据集上训练判别分类器,如判别视觉问答,几乎总是遵循经典机器学习范式:使用交叉熵等常见损失函数,并使用标准的“2-范数正则化器”(又名权重衰减)。正则化器偏爱“简单”分类器而不是更复杂的分类器。这些经典的正则化器适用于主要使用单一数据模态的传统机器学习设置。不幸的是,因为它们偏爱“简单”模型,所以在从多模态数据中学习时,它们的使用是有害的。简单鼓励使用来自单一模态的信息,这通常最终会使学习者产生偏见。例如,视觉问答模型最终是由先验语言而不是视觉理解驱动的。例如,无论问题如何,都用“2”回答“多少……?”问题。另一个流行的例子包括彩色图像,其标签与其颜色模态和形状模态相关。在这些情况下,标准学习者通常关注“简单”的颜色模态,而在很大程度上忽略了形状模态 。
为了解决这个问题,我们基于功能熵开发了一个新的正则化项。直观地说,该术语鼓励平衡每种模态对分类的贡献。为了解决计算函数熵的计算挑战,我们开发了一种基于 log-Sobolev 不等式的方法,该方法将函数熵与函数 Fisher 信息绑定在一起。
在合成数据集 Colored MNIST 上凭经验验证了正则化最大限度地利用了基本信息。在两个数据集上实现了最先进的性能:SocialIQ(68.53% 对 64.82%)和 VQA-CPv2(54.55% 对 52.05%)。
知识补充
Fisher信息
参考文章:点击跳转 在机器学习中需要估计出样本的分布,我们是利用样本所具有的信息量来估计参数的,样本中具有的信息量越多,估计的参数越准,样本的分布估计的就越接近真实分布,这里的信息量就是用Fisher Information来表示的。Fisher信息比较直接的就是其导数或者矩阵逆是最大似然估计量(MLE)的渐进分布的方差/协方差矩阵了。从这个角度看它确定了估计量分布的不确定性。
函数熵
log-Sobolev 不等式