与传统意义上的风格迁移不同,用于Re-ID的风格迁移更像是对一组图库统一风格的描述。之前已经有如DiscoGAN和CycleGAN的工作,这篇论文在二者的基础上更进一步,结合了二者的优点,使得该模型能生成稳定的相机风格化图片,从而实现数据增强的目的。

1.motivation

行人再识别(Re-ID)是给定一组目标人物,从多摄像头的数据库中查找目标的任务。但是不同摄像头得到的数据受时间,光照,天气等影响,会产生较大的差异,为目标查询带来困难。对于该问题,我们可以将不同相机得到的图像视为不同的风格,从而引入了风格迁移领域的GAN方法。

但是之前的CycleGAN生成的图像存在图像伪影,噪声以及对于不同风格要分别匹配的问题,文章提出了一种均一化风格的方法,即通过UnityGAN生成具有统一相机风格的图像。

Unity style unity style transfer_计算机视觉


与cycle每种相机风格都单独进行风格化不同,unity将所有相机风格迁移到了相近的区域,即所谓的unitystyle

Unity style unity style transfer_计算机视觉_02


使用UnityGAN之后,原本和query图像风格不一样的gallery图片变成了和query一样相机风格的图片

2.model

与CycleGAN类似,对于两个图片域X,Y模型要分别得到两个映射G和F分别实现从X–>Y和从Y–>X的图片映射关系。其中X和Y可以认为是不同相机中不同风格的图像库。

2.1 UnityGAN

Unity style unity style transfer_python_03


其中UnityGAN在CycleGAN的基础上增加了IBN模块以及self-attention模块,同时增加了级联操作。都是为了保证转换后原图像特征的有效性以及获取一致性的风格。2.2 IBN-NET

IBN-NET包括Instance Normalization (实例正则化)和Batch Normalization (批正则化)

Unity style unity style transfer_Unity style_04


在特征抽取的过程中,浅层特征主要体现图像的色彩等风格信息,深层特征则是更多的细节和形状信息。浅层的IN可以提升模型对不同风格的鲁棒性。(在CHEN TQ的通过style patch实现任意风格转换的文章中有验证)BN则会使模型对于图像内容特征更敏感。再加上残差块的级联操作(不知道是直接加还是进行点积等操作)使得源图像的内容信息更多被保留下来。2.3 style attention

Unity style unity style transfer_计算机视觉_05


多个来自不同相机的图片输入到UnityGAN中,在训练阶段,从IBN层提取特征,进行style attention的操作,并以此做为损失函数的一部分,保证风格的一致性。训练时,所有图片都输入,而生成器则为输入图像生成具有Unity Style的对应图像。2.4 loss function

Unity style unity style transfer_数据集_06


损失函数包括四部分:标准GAN损失,特征匹配损失,标识映射损失,循环重构损失。其中循环重构损失又包括两部分:L1 loss

Unity style unity style transfer_数据集_07


和Lss loss其中标识映射损失

Unity style unity style transfer_python_08


Unity style unity style transfer_数据集_09


SLN是损失标准化,对于style attention module,其损失形式如下

Unity style unity style transfer_数据集_10

Unity style unity style transfer_Unity style_11


最终损失函数的形式如下

Unity style unity style transfer_python_12


c是相机数量,i是第i种相机风格

Unity style unity style transfer_python_13


w_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjE5NzYwMQ==,size_16,color_FFFFFF,t_70)

上图是有无style attention module的区别,可以发现前者转换后的风格仍不能统一2.5 Deep Re-ID Model

目前已经有许多优秀的深度Re-ID模型,如IDE, PCB和 st-ReID 。本文中的方法是基于IDE的。

Unity style unity style transfer_计算机视觉_14


将原模型中的分类层改为两个相邻的全连接层(why?)。在测试阶段,使用Resnet输出的2048维特征进行评估,计算mAP(平均精度均值)和top-K.(mAP:多个类别目标检测中,每个类别都可以根据recall(召回率)和percision(准确率)绘制一条曲线。AP就是该曲线下的面积,mAP意思是对每一类的AP再求平均。)

3.Training

我们将训练集真实图像对应的unitystyle图像作为增强数据集,在训练过程中使用。增强数据集作为输入,大小固定为256*128.随机抽取了N张真实图像和N张UnityStyle图像。由此得到一个损失函数

Unity style unity style transfer_数据集_15


Unity style unity style transfer_计算机视觉_16


Unity style unity style transfer_计算机视觉_17


L是标签的数量,p(L)是x标签被预测为L的概率,q(l)为ground-truth分布

Unity style unity style transfer_数据集_18


因此可以将上边两个损失简化

Unity style unity style transfer_数据集_19

其中Pr是第i个真实图像被正确预测的概率,Pu是unity图像被正确预测的概率。

4.Test

测试时,分为查询库和图库,使用unityGAN将两个数据库均转化为unityStyle。在查询时,使用已经转化为unityStyle的查询库作为输入,在图库中进行匹配。

5.结果

Unity style unity style transfer_损失函数_20


Unity style unity style transfer_计算机视觉_21

上图为搭配不同深度Re-ID模型在不同数据库上的表现,可以发现mAP和top-K精度都得到了显著提高。

Unity style unity style transfer_Unity style_22

上图为消融实验,可以看到unityStyle在加上RE(re-ranking)操作,使得准确率得到了再度提升

6.总结

本文在cycleGAN基础上畸形了改进和提升,使用unityStyle统一所有相机得到照片的风格,从而实现提升Re-ID准确率。并且通过该模型得到的怎强图片无需单独处理,可以与原数据集一起进行处理。

7.问题

1.对于输入需要规定图片大小,这是否时必须的?
2.消融实验中,基于IDE的unityStyle增强的Re-ID结果为何与前边不一样?
3.风格的迁移是否必须用GAN网络?普通的非pix2pix的风格迁移方法是否有效?
4.在运算时间上哪个模型更有优势?