前言在2019 iQIYI Celebrity Video Identification Challenge中的挑战赛任务简单来讲,就是识别某段视频的身份,最终基于mAP来度量成绩的高低,该团队取得了第5名的成绩。下文将主要和大家介绍一下排名TOP5团队的心路历程和作战技巧。

 

方案介绍

 

1. 数据集理解

大赛提供了两种数据:视频数据和特征数据。视频数据包含了100k~200k的视频片段、约200小时。特征数据分为4种:Face特征、Head特征、Body特征、Audio特征。

原始视频数据量巨大,特征数据质量也较高,重新提取特征能不能达到官方原始特征的水平还有待商榷,于是战略性地放弃了特征重提,基于原始特征完成了所有实验。

 

Face、Head、Body、Audio是不同模态的数据,其中:

  •  Face特征:是最重要的、质量最高的特征,对结果起着决定性的作用,据我们所知,很多团队在这次比赛中只用了Face的特征,便达到了很高的结果。

  •  Head特征:包含了发型、配饰等头部特征。

  •  Body特征:包含了姿态、服饰等身体特征。

  •  Audio特征:声闻信息,包含了背景音噪音等等。

 

故先从Face特征入手,后面为了提升点数,也加入了其他模态的特征。

 

2.数据处理

就官方给的各个特征而言,我们做了如下的处理:

 

  •  Face特征:n1∗512维,根据质量分数加权平均得到了512维的特征表示;这里有个小技巧,通过计算特征的L2-Norm去掉了一些模糊人脸。

  •  Head特征:n2∗512维,简单取平均,得到512维的向量。

  •  Body特征:n3∗512维,简单取平均,得到512维的向量。

  •  Audio特征:512维,未作处理。

 

我们想用多种模态数据(Face、Head、Body、Audio)来表征某视频最终特征的时候,发现这四种特征不完全对应,故对其做了如下处理:

 

  •  如果缺少Face特征,就舍弃。

  •  如果缺少Head、Body特征,就用Face特征来补全。

  •  如果缺少Audio特征,就用随机的一个Audio特征补全。

 

 

上述的处理方式,其实也对应了上文中Face特征是最重要的高质量特征的观点,在Face特征存在的情况下,不对数据进行舍弃操作,尽可能保留。

 

3. 单模态模型

这里的单模态模型指的是只用Face特征的模型。比赛涉及了10034个身份和一些噪声身份,因而在输出方面团队设计了一个10035类的分类器。具体架构方面则借鉴了去年第一名的模型结构,也就是MLP+Shortcut Connection+pRelu+ArcFace。

 

至此,团队在比赛平台上的结果达到了83.20,加上前面所说的根据Face特征的L2-norm这个小trick,达到了83.67的成绩。

 

4. 多模态模型

Face模态的网络结构在上文已经提到过了,Head、Body模态的结构与Face一致,Audio模态我们没有使用ArcFace。将四个模态的Output(10035维)进行加权,得到最终的Output(10035维)。

 

这里发现使用多模态(Face、Head、Body、Audio)训练,使用部分模态测试(Face、Head)重新调整权重进行测试,有助于结果的提升。具体来讲,以Face模态训练、Face模态验证为基准,四个模态训练、四个模态验证可以提升0.3左右,而四个模态训练、Face&Head模态验证又可以提升0.4左右。

 

 

究其原因,四个模态的质量不等,因此调整不同模态的比例具有帮助提高整体模型的学习能力的作用。最后,将验证集的数据也加入了训练的过程,在多模态模型上不断尝试,最终达到87.91的成绩。

 

5. 结果调整

由于所采用的网络输出是一个简单的10035分类,而大赛最终的评价指标是针对Person ID返回的前100个检索结果进行计算,我们将返回结果进行了调整,返回10035类中激活最大的50个值,将点数提升至89.52,并凭借此成果获得了本届挑战赛的第五名。

 

总结反思

 

• 方案中“不同模态、不同设置”的提点策略尚缺乏严谨的理论支持,针对这一问题,团队同学还在做后续的实验验证。

• 所采用的Bagging方法相对简单,对点数提升的作用有限,最终提交的只是单个模型,团队工作还有较大的进步空间。

 

• 在挑战赛中,团队成员协同合作,坚持到最后并取得了不错的成绩,是一段非常愉快且有意义的经历。接下来我们也将继续学习,挑战自我。

 

南大R&L团队,来自南京大学推理与学习组,团队成员有徐园园、 杨丽、陈建蓉、沈卓恺,主要指导老师为霍静老师,徐园园为该团队的组长,与大家一起进行了前期的调研,在docker提交配置、代码架构等方面起了很大的作用,模型设计和效果提升方面主要由杨丽和陈建蓉同学完成。

人物识别挑战赛TOP5团队经验分享:坚持不懈本身就是一种超越_人物识别