ImageNet图像分类挑战赛 imagenet 分类_ide




1.motivation

细粒度视觉分类任务(Fine-grained visual categorization: FGVC)是具有挑战性的一个原因是其缺少大量的训练数据。另外,FGVC在使用大型的模型时为了防止过拟合,当下的一些方法是首先在大型的数据集上(eg: imagenet)做一个预训练,之后再迁移到目标任务上。作者认为,预训练没有考虑具体的目标任务。故作者提出新的模型,目的是指导网络参数的学习,使其最优的适合目标任务。在这基础上,作者又提出一个有效的方案在预训练数据集上选择最有用的样本。以我们往常的思维,普遍是把在imagenet上预训练的参数直接迁移到我们的任务上,并没有考虑到imagenet上预训练的参数是否最优的适合我们的任务,这里作者这种思维方式的确是具有创新性的。

2.related works

简单提一下related works中的一个点。

当下的许多FCVC方法普遍是处理输入的一整张图片而不是图片中局部的区域块,有针对性的处理区域块的方法通常会更好一点。

3.model


ImageNet图像分类挑战赛 imagenet 分类_imagenet分类_02


训练数据(target data)以


表示,


表示输入图像,


表示class label的one-hot vector。辅助数据(auxiliary data)以S表示。他们共享一个基础网络,之后有各自的classifier。以


表示Base network的参数,


分别表示两个分类器的参数。这样,两个分支模型的参数表示为

expected loss:


ImageNet图像分类挑战赛 imagenet 分类_数据_03


empirical loss:


ImageNet图像分类挑战赛 imagenet 分类_数据_04


regularized loss :


ImageNet图像分类挑战赛 imagenet 分类_数据集_05


联合辅助数据共同训练:


ImageNet图像分类挑战赛 imagenet 分类_ide_06


作者结合meta-learning改进:


ImageNet图像分类挑战赛 imagenet 分类_ImageNet图像分类挑战赛_07


4.implementation details

作者使用resnet34作为backbone, 指出resnet34和vgg16-bn在imagenet上实现相似的效果, 经验总结,在这里记录一下。

值得注意的是, When using L-Bird Subset as the auxiliary data, the experiments firstly fine-tune an ImageNet pre-trained model on L-Bird Subset for 32 epochs, and then train our MetaFGNet for 8 epochs starting from the 24th epoch fine-tuned model; the learning rate and meta learning rate are divided by 10 respectively after 4 and 6 epochs。

5.conclusion

我认为,本文的思想更像是在fintune的角度做进一步改进,思路很清晰。有计划进一步研究的小伙伴可以详看论文,本人水平有限,敬请原谅。