Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记

原创

继武G5 2021-08-27 14:32:55 博主文章分类：个性分析 ©著作权

文章标签 多模态个性分析模态数据特征向量 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者继武G5的原创作品，请联系作者获取转载授权，否则将追究法律责任

Multimodal First Impression Analysis with Deep Residual Networks 前言

这篇文章也算是一个老文章了，不过效果也非常好，准确率也在前三名之内，有必要读读它的模型结构以及特征方法，特别是他对于声音提取的方面好像有一些小创新，虽然是两个模块，但也有借鉴意义，

模型结构

以下是整个模型的一个流程图，通过，训练集进行训练得到一个模型，然后把被测试者的视频输入到模型中，得到它的个性分数以及是否是一个好的面试者（通过还是不通过）

Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记_数据

Audiovisual　模型

参考了之前使用的resnet , 但是声音和视觉由于其维度不同，其结构也有一些不同，主要的区别就是，步长，卷积核的问题

Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记_多模态_02

其训练过程如下:

从视频中读取声音和视觉数据
声音随机采样50176个样本，约为3.316秒，放到声音提取模型中
视觉随机采样 224*224的图片，放到视觉提取模型中
最后把两个模态得到的特征拼接，进行拼接，最后放入全连接进行预测

验证过程如下：

从视频中读取声音和视觉数据
声音全部放到声音提取模型中
视觉随机采样一帧
最后把两个模态得到的特征拼接，进行拼接，最后放入全连接进行预测

因为两个模态的特征提取模块的倒数第二层后面都是全局平均池，所以不用担心输入不同的问题

当然，为了消融实验：

作者还使用了单独的音频模型和单独的视觉模型。这些模型由视听模型的相应流组成，但是后面是单独的连接层。他们也分别进行了评估

Language 模型

或者使用两个模型来进行，的预测，一个是词袋模型，另外一个是skip-thought vectors，

每一个句子都被编码成一个固定的特征向量

Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记_模态_03

这每一个特征向量都用一个线性回归来进行预测

实验&训练

个性之间的相关性

Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记_多模态_04

平均脸

作者这里用了可视化的处理，把5个个性的高人群和低人群的平均脸进行了输出，这里非常有趣

Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记_模态_05

结果

实验结果：

Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记_多模态_06

最后文章还给了一一种可解释性的方法来解释为什么不同的个性使得他录取还是不录取，例如由于这个人的开朗性不是很高，所以他将不会被录取，感兴趣的可以自己读一下好，

总结

声音的提取模态，有点东西可以看一下
准确率还挺高的

上一篇：Bi-modal first impressions recognition using temporally ordered deep audio and stochastic 阅读笔记

下一篇：A Personality traits and job candidate screening via analyzing facial videos 阅读笔记

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯