【导读】今天分享的文章,作者主要提出了一种新的人脸检测网络,解决了人脸检测的三个关键方面:包括更好的特征学习、渐进的损失设计和基于锚的数据增强。
首先,作者提出了一种增强原始特征映射的特征增强模块(FEM),将单个镜头检测器扩展到双镜头检测器。其次,采用由两组不同的锚计算的渐进锚损失(PAL)来有效地促进特征。第三,通过将新的锚分配策略集成到数据增强中,使用了改进的锚匹配(IAM),以提供对REGRESOR的更好的初始化。
由于这些技术都与双流设计有关,所以将提出的网络命名为双镜头人脸检测器(DSFD)。在常用的基准WIDER FACE和FDDB进行了广泛实验,证明了DSFD优于现有技术的人脸检测器的优越性。
引言
作为人脸检测的先驱工作,Viola-Jones采用Adaboost算法,具有手工制作的特征,现在已被卷积神经网络(CNN)的深度学习的特征所取代,取得了很大的进步。尽管基于CNN的人脸检测器已经被广泛地研究,但是在真实世界场景中检测具有高度可变性的面部、姿势、遮挡、表情、外观和照明仍然是一个挑战。
现有技术的人脸检测器可以粗略地分成两类,第一个主要是基于Faster RCNN中采用的区域建议网络(RPN),并且采用两级检测方案。RPN是经过训练的端到端,并产生高质量的区域候选,这些候选通过Faster R-CNN探测器进一步完善。另一个是基于单镜头探测器(SSD)的单级方法,该方法摆脱了RPN,直接预测了边界框。
Dual Shot Face Detector
DSFD的框架如下图所示。体系结构使用了与Pyramid Box和S3FD相同的扩展VGG16框架,在分类层之前被截断,并添加了一些辅助结构。注意,训练图像的输入尺寸为640,这意味着从最低层到最高层的特征图大小为160到5。不同于S3FD和Pyramid Box,在利用有限元法中的感受野放大和新的锚设计策略后,对于步长、锚和感受野三种尺寸满足等比例间隔原则的情况,都是不必要的。因此,DSFD具有更大的灵活性和鲁棒性。此外,原有的和增强的镜头有两个不同的损失,分别是第一次发射渐进锚损失(FSL)和第二次发射渐进锚损失(SSL)。
特征增强模块
特征增强模块能够对原始特征进行增强,使其具有更强的鉴别性和鲁棒性,简称FEM。
下图就阐述了FPN和RFB提出的有限元思想。在这里,首先使用1×1卷积核来规范特征映射。然后对上面的特征图进行抽样,用当前的特征映射来制作元素级的产品。最后将特征映射分为三个部分,然后是包含不同数目的膨胀卷积层的三个子网络。
实验
特征增强模块的有效性
Progressive Anchor Loss 的有效性
不同尺度人脸的数目分布
新技术的可视化结果