Generative Modeling for Small-Data Object Detection(2019ICCV)
该篇论文主要探讨了小数据环境下的对象检测。由于数据的稀缺性和注释的开销,只有有限数量的带注释的边界框可用,例如一些比较罕见的疾病。以往的GAN网络只是为了优化图像的真实感,而不是为了提高目标检测的准确性。因此,作者提出的模型中,联合优化生成模型和检测器,,从而使生成的图像提高检测器的性能。
1. 介绍
现有的图片生成模型不可用,原因:
- 需要分割mask,在疾病检测中不可行
- GANs的目的是生成真实的图像,探测器没有直接反馈到发生器
作者提出了一个新的DetectorGAN模型(如图1所示),它将探测器和GAN连接在一起。该联合模型将检测器集成到生成器-判别器管道中,并对生成器进行训练,以显式提高检测性能。
生成器之后接上两个分支:
- 判别器:提高生成图的真实感和合理性
- 检测器:反馈
共同优化了对抗损失和检测损失。由于生成器无法获取来自检测真实图像的损失,本文提出一个方法:通过展开一个前向-后向的检测器训练来连接生成器和真实图像上的检测损失
2. 相关工作
图像到图像的变换
图像-图像变换框架功能强大,但要求训练数据与成对的源/目标图像,这往往很难获得。本文提出的DetectorGAN算法属于不配对的图像-图像转换框架
GANs和分类器的集成象
与辅助分类器GAN(ACGAN)的对比:
(1)并没有将GANs和分类器集成
(2)损耗公式是不同的:ACGAN只在合成图像上最小化分类损耗,并不能保证提高真实图像的性能,而我们通过添加展开步骤来优化合成图像和真实图像的损耗
目标检测中的数据增强
A Fast RCNN (2017)针对目标遮挡和变形问题
本文与其的不同:
(1)前者不是GAN 只有生成模型
(2)本文侧重点在于小样本下的数据增强
Perceptual GAN 生成合成图像,提高检测效果。但是,它是专门为小型对象检测而设计的,通过将小型对象超分解为更好的表示。他们的方法不适用于一般的目标检测。
PS-GAN生成合成图像来改进行人检测。它们使用传统的生成器-判别器架构生成合成图像,没有在生成器-判别器中加入检测器
3. DetectorGAN
三个部分:一个生成器,(多个)鉴别器和一个检测器。
检测器:将生成的图像是否改善了检测性能反馈给生成器。
鉴别器:提高了生成图像的真实感和可解释性(有助于产生真实和可理解的合成图像)
3.1 模型结构
baseline: Cycle- GAN
DetectorGAN中的生成器生成合成的标记(插入目标)图像,认为包含目标的属于X,没有目标属于Y
生成器
GX的两个输入:(1)真实的不带目标的图像 (2)mask(插入目标的边框内像素为1,其余为0)
输出:带目标的合成图像
GY的两个输入:(1)真实的带目标的图像 (2)mask(插入目标的边框内像素为1,其余为0)
输出:删除目标的合成图像
选取插入目标的位置:预处理、随机采样
判别器
两个全局鉴别器DISglobalX和DISglobalY,以及一个局部鉴别器DISlocalX(用于局部区域真实性)
全局鉴别器DISglobalX:判别真实有标签的图像与加上标签的合成图像
局部鉴别器DISlocalX:判别全局的整个图像或局部的边框图像
全局鉴别器DISglobalY:判别真实没有标签的图像与删除标签的合成图像
检测器
采用真实的和合成的带有物体的标记图像作为输入,输出边界框
3.2 训练带有检测损失的生成器
将检测损失从检测器通过反向梯度传播给生成器
检测损失Ld(.)包含了回归和分类损失
在真实图像上的损失:
在合成图像上的损失:
在真实图像上展开以优化检测损失
给定一个真实的图像y, GX的目标是使用生成的图像来最小化对真实图像的检测损失。也就是,GX应该使得式1的损失最小化。由于式1没有包含GX,且检测器是通过前一步的由GX生成的合成图像进行训练的,如式3所示,展开前后通道的损失
合成图像的检测损耗
使式2的损失尽可能大,从而提高检测器性能
3.3 总损失和训练
总损失
DetectorGAN模型生成的图像需要具备的条件:
- 有助于训练更好的探测器;
- 有插入目标;
- 在全局和局部与真实图像难以区分。
在插入目标时,我们使用L1损失来最小化合成目标图像和真实目标之间的损失(称为BboxLoss)。
为了生成真实的图像,我们对全局鉴别器和局部鉴别器进行了对抗性损失。
DISglobalX的对抗损失:
此外,我们使用循环一致性损失和身份损失来帮助保存整个图像中的信息。
我们通过最小化真实图像和合成图像的检测损耗来更新检测器的权值
训练
更新判别器时,目标是使判别器对生成图像的损失最大,对真实图像的损失最小。
更新探测器时,目标是最小化真实和生成的图像的检测损失。
更新生成器的目标是:(1)尽量减少鉴别器对生成图像的损失;(2)最小化真实物体图像的检测损耗,(3)最大化生成图像的检测损耗。
为了更快的收敛,我们分别对鉴别器-发生器对和检测器进行预训练,然后对它们进行联合训练
4. 实验
4.1 疾病检测
4.1.1 数据集
NIH Chest X-ray dataset
改进和扩展的注释
原有数据集不好,作者做了以下改进
(1)用0.7/0.2/0.1的数据生成一个无患者的toverlap训练/测试/验证,生成57/13/9个带有57/13/9个对象实例的图像。
(2)重新标注。
Baselines和准备工作
Baselines:CycleGAN + BboxLoss
评价策略
AP IOU
4.1.2 定量比较
4.1.3 定性分析
生成图像质量
检测细节
在图5中,该检测器有助于检测未检测到的结节。
4.2 行人检测
baseline:PS-GAN
定量结果
定性结果