Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening from Video CVs

这篇文章作为2017年的文章,其准确率非常之高,到2020年也只有一篇超过了它的准确率,所以我们确实需要去看一看这一篇的特征提取方法,以及它所用的融合方法和一些其他的结构

模型结构

Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening 阅读笔记_特征提取

视觉特征提取

脸部特征

对每一帧,使用人脸对齐方法 Supervised Descent Method, 提取人脸的49个标记点, 以眼角旋转角度 作为参考 相应地旋转图像。 得到一张64*64的照片。

特征提取

用预训练的VGG-Face 来fine-tune, 具体来说,

  • 把VGG是改掉最后一层全连接为7(情感维度为7), 识别情感,
  • 然后再用FER-2013(情感)数据集进行预训练,
  • 用训练好的VGG-Face的第34层网络作为最后提取的特征。

同时结合LGBP-TOP提取的特征:维度为50 112 具体可看:https://ieeexplore.ieee.org/document/6681456

从每个对齐的面部提取帧级特征后,我们通过计算随时间变化的每个维度的功能统计信息来得到视频特征。 特征包括均值,标准差,偏移,斜率和曲率

场景特征

使用VGG-VD-19网络提取了一组特征,该网络针对ILSVRC 2012数据集上的对象识别任务进行了训练。 与面部特征相似,我们使用了43层体系结构的第39层中的4 096维特征,因此我们获得了包含面部和场景的整体图像的描述。

声音特征提取

使用openSMILE来进行特征提取,

具体来说:使用 在 INTERSPEECH 2013 Computational Paralinguistics Chalenge 所用到的标准特征配置

核ELM 回归

为了对视觉特征进行建模, 使用 核极限学习机(ELM在研究中被视为一类特殊的FNN,或对FNN及其反向传播算法的改进,其特点是隐含层节点的权重为随机或人为给定的,且不需要更新,学习过程仅计算输出权重)

这里只有C是要求的参数
Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening 阅读笔记_情感分析_02

我们使用训练集上的5-fold独立交叉验证对其进行优化。

随机森林融合

ELM模型的预测被堆叠到随机森林中,得到最后的预测结果

实验

实验结果如图:

Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening 阅读笔记_数据集_03

ICPR 2016 是baseline

而且做了一个形象化的描述,也就是说把5个个性的分数放到决策事务中来预测这个人是否面试,然后形成了这样一颗决策树,也就是一个if else的集合,

Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening 阅读笔记_个性分析_04

总结
  • 对于视觉特征用预训练模型来提取,相当于一个情感分析的迁移,提取脸部设置的时候,用情感分析的的数据集来训练提取个性脸部特征模块。

  • 核ELM的应用