Aligning Domain-Specific Distribution and Classifier for Cross-Domain Classification from Multiple Sources

Code:https://github.com/easezyc/deep-transfer-learning

多源域迁移学习与领域自适应是迁移学习领域一个新的方向,目前还并没有太多的研究。区别于一般的领域自适应问题,多源迁移学习涉及多于一个的源域,同时将多个源域的知识迁移到目标域中辅助目标域的学习。这在实际中具有重要的意义,比如我们有时可以获得在多个领域采集的数据,一个很自然的想法是将这些数据合并成一个数据集来训练模型,但是如下图所示由于每个领域的分布都不同,这样的处理方式并不能充分数据,有时甚至会对模型产生负面影响。从本质上来说,不管是单个领域还是多个领域的迁移学习,目的都是将目标域的特征与源域对齐,因此单源域的迁移学习算法同样可以应用到多源迁移学习中。

深度学习迁移训练 深度迁移领域自适应_深度学习迁移训练

摘要:近年来关于无监督领域自适应算法的研究十分活跃,目前大多数的算法和理论主要涉及单一的源域。在实际应用中,我们可能能够在多个不同的设备上采集到带标签的数据,但是这些数据不但和目标域不同,而且互相之间也不同。目前基于深度学习的多源无监督领域自适应算法通过将每个源的特征对齐到一个统一的空间来获得领域不变的特征,但是实际上我们很难为所有的领域提取到同样的领域不变的特征表示。另外,这些算法也没有考虑具有领域独特性的类别决策边界。因此作者提出了一种包括两步对齐的无监督领域自适应算法,不但对齐不同领域的特征,而且对齐不同域分类器的输出。最后作者在图像分类上评估了提出的算法。

方法:这篇文章主要是提出了一种涉及两步对齐步骤的领域自适应算法,算法原理图如下所示

深度学习迁移训练 深度迁移领域自适应_数据_02

首先多个源域和目标域的数据输入到一个公共的特征提取器,将图像映射到一个公共的特征空间。

然后将这些公共的特征输入到特定领域的特征提取器中,以便在特定的领域获得特定的特征。训练数据毕竟来自不同的领域,因此公共的特征提取器不能很好地提取到具有领域属性的特征,需要利用不同的特征提取器在不同的领域中提取到具有可识别性的特征,这样的处理能更加高效地利用带标签训练数据。

然后采用MMD损失在将这些特征进行对齐,这也就是第一阶段的对齐操作。

然后将前面提取的特征输入到不同的分类器在不同的领域中实现分类,这些分类器采用交叉熵损失函数进行训练。

深度学习迁移训练 深度迁移领域自适应_自适应_03

1)特征对齐阶段

特征对齐阶段是采用MMD损失衡量任意一组源域和目标域组合间特征的差异,目的是在目标域中获得和任意源域都对齐的特征。

深度学习迁移训练 深度迁移领域自适应_迁移学习_04

深度学习迁移训练 深度迁移领域自适应_深度学习迁移训练_05

深度学习迁移训练 深度迁移领域自适应_深度学习迁移训练_06

2)分类器对齐阶段

因为目标域没有标签,所以需要采用源域的分类器对目标域进行分类,但是又因为有多个源域,因此这时涉及到怎么有效利用这些源域分类器。对于目标域的一个样本来说,不同源域的分类器应该做出相同的预测,因此作者直接约束所有组合中分类器的输出的绝对值差异

深度学习迁移训练 深度迁移领域自适应_迁移学习_07

因此经过两个阶段的对齐优化,可以在目标域中获得正确的分类结果,所以整体的优化目标为

深度学习迁移训练 深度迁移领域自适应_迁移学习_08

评价:作者分两阶段对齐操作解决了多源域领域自适应问题,第一阶段中通过MMD损失对齐不同领域特征的操作比较容易想到,第二阶段使得所有的源域分类器针对同一个目标样本输出同样的概率是作者提出的trick。