人物识别挑战赛TOP5团队经验分享：坚持不懈本身就是一种超越

原创

爱奇艺技术产品团队 2021-07-08 10:30:49 ©著作权

©著作权归作者所有：来自51CTO博客作者爱奇艺技术产品团队的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言在2019 iQIYI Celebrity Video Identification Challenge中的挑战赛任务简单来讲，就是识别某段视频的身份，最终基于mAP来度量成绩的高低，该团队取得了第5名的成绩。下文将主要和大家介绍一下排名TOP5团队的心路历程和作战技巧。

方案介绍

1. 数据集理解

大赛提供了两种数据：视频数据和特征数据。视频数据包含了100k~200k的视频片段、约200小时。特征数据分为4种：Face特征、Head特征、Body特征、Audio特征。

原始视频数据量巨大，特征数据质量也较高，重新提取特征能不能达到官方原始特征的水平还有待商榷，于是战略性地放弃了特征重提，基于原始特征完成了所有实验。

Face、Head、Body、Audio是不同模态的数据，其中：

Face特征：是最重要的、质量最高的特征，对结果起着决定性的作用，据我们所知，很多团队在这次比赛中只用了Face的特征，便达到了很高的结果。
Head特征：包含了发型、配饰等头部特征。
Body特征：包含了姿态、服饰等身体特征。
Audio特征：声闻信息，包含了背景音噪音等等。

故先从Face特征入手，后面为了提升点数，也加入了其他模态的特征。

2.数据处理

就官方给的各个特征而言，我们做了如下的处理：

Face特征：n1∗512维，根据质量分数加权平均得到了512维的特征表示；这里有个小技巧，通过计算特征的L2-Norm去掉了一些模糊人脸。
Head特征：n2∗512维，简单取平均，得到512维的向量。
Body特征：n3∗512维，简单取平均，得到512维的向量。
Audio特征：512维，未作处理。

我们想用多种模态数据（Face、Head、Body、Audio）来表征某视频最终特征的时候，发现这四种特征不完全对应，故对其做了如下处理：

如果缺少Face特征，就舍弃。
如果缺少Head、Body特征，就用Face特征来补全。
如果缺少Audio特征，就用随机的一个Audio特征补全。

上述的处理方式，其实也对应了上文中Face特征是最重要的高质量特征的观点，在Face特征存在的情况下，不对数据进行舍弃操作，尽可能保留。

3. 单模态模型

这里的单模态模型指的是只用Face特征的模型。比赛涉及了10034个身份和一些噪声身份，因而在输出方面团队设计了一个10035类的分类器。具体架构方面则借鉴了去年第一名的模型结构，也就是MLP+Shortcut Connection+pRelu+ArcFace。

至此，团队在比赛平台上的结果达到了83.20，加上前面所说的根据Face特征的L2-norm这个小trick，达到了83.67的成绩。

4. 多模态模型

Face模态的网络结构在上文已经提到过了，Head、Body模态的结构与Face一致，Audio模态我们没有使用ArcFace。将四个模态的Output（10035维）进行加权，得到最终的Output（10035维）。

这里发现使用多模态（Face、Head、Body、Audio）训练，使用部分模态测试(Face、Head)重新调整权重进行测试，有助于结果的提升。具体来讲，以Face模态训练、Face模态验证为基准，四个模态训练、四个模态验证可以提升0.3左右，而四个模态训练、Face&Head模态验证又可以提升0.4左右。

究其原因，四个模态的质量不等，因此调整不同模态的比例具有帮助提高整体模型的学习能力的作用。最后，将验证集的数据也加入了训练的过程，在多模态模型上不断尝试，最终达到87.91的成绩。

5. 结果调整

由于所采用的网络输出是一个简单的10035分类，而大赛最终的评价指标是针对Person ID返回的前100个检索结果进行计算，我们将返回结果进行了调整，返回10035类中激活最大的50个值，将点数提升至89.52，并凭借此成果获得了本届挑战赛的第五名。

总结反思

• 方案中“不同模态、不同设置”的提点策略尚缺乏严谨的理论支持，针对这一问题，团队同学还在做后续的实验验证。

• 所采用的Bagging方法相对简单，对点数提升的作用有限，最终提交的只是单个模型，团队工作还有较大的进步空间。

• 在挑战赛中，团队成员协同合作，坚持到最后并取得了不错的成绩，是一段非常愉快且有意义的经历。接下来我们也将继续学习，挑战自我。

南大R&L团队，来自南京大学推理与学习组，团队成员有徐园园、杨丽、陈建蓉、沈卓恺，主要指导老师为霍静老师，徐园园为该团队的组长，与大家一起进行了前期的调研，在docker提交配置、代码架构等方面起了很大的作用，模型设计和效果提升方面主要由杨丽和陈建蓉同学完成。

上一篇：爱奇艺发布《互动视频广告白皮书》互动视频首次应用至广告

下一篇：活动报名|爱奇艺技术沙龙——广告算法与架构设计

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯