视觉语言模型中的人脸社会感知

原创

AI论文_行麦科技 2024-09-12 10:16:35 博主文章分类：行麦科技 ©著作权

©著作权归作者所有：来自51CTO博客作者AI论文_行麦科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

本文研究了视觉语言模型CLIP在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为CausalFace的合成人脸数据集，通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现，尽管CLIP是在多样化的图像和文本数据上训练的，但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了CLIP在处理受法律保护的属性（年龄、性别和人种）时存在系统性的偏见，尤其是对黑人女性面孔的社会感知显示出极端值。此外，研究指出面部表情对社会感知的影响大于年龄和照明条件。这些发现表明，在研究视觉语言模型的社会偏见时，控制非受保护的视觉属性是非常重要的，以避免得出错误的结论。

视觉语言模型中的人脸社会感知_控制变量

1 数据集介绍

数据集由合成的人脸图像组成，这些图像通过生成对抗网络（GAN）产生。每个数据集从一个“种子”人脸开始，然后通过变化生成六个原型，分别代表三种不同的人种（亚洲人、黑人、白人）和两种性别（女性和男性）。这些原型人脸保持尽可能多的相似特征（如面部比例、穿着、背景），仅在人种和性别上有所不同。接下来，每个原型人脸在年龄、微笑程度、光照条件和头部姿态上进行变化，产生了每种原型30个图像变体。因此，对于每一种性别-人种组合（共有六种），都生成了180张人脸图像。整个数据集包括来自100个不同种子的图像，每个种子有六个原型，每个原型又有30个变体，共计18,000张独特的人脸图像。这些图像被系统地独立变化，使得能够进行实验性的分析并支持因果关系的结果解释。为了确保属性变化的成功，每张图像都经过了九个人类注释者的评估。

视觉语言模型中的人脸社会感知_控制变量_02

2 实验设计

实验设计旨在通过系统性地操纵人脸图像的不同属性来评估视觉语言模型（VLMs）中的社会感知偏见。使用CausalFace合成人脸图像数据集，该数据集通过生成对抗网络（GAN）创建，并且能够独立变化受法律保护的属性（如年龄、性别和人种）以及非保护属性（如表情、光线和姿势）。通过这种方式，研究者可以控制变量并精确测量每个属性对模型社会感知的影响。具体来说，这项研究关注的是CLIP模型，发现它能做出类似人类的精细社会判断，并揭示了模型在处理不同年龄、性别和人种的脸部图像时存在的偏见，尤其是对黑人女性脸部的极端反应。此外，研究还强调了面部表情对社会感知的影响大于年龄，而光线则与年龄影响相当，这表明在研究中控制非保护属性的重要性。通过比较实验方法得到的结果与使用野外采集的数据集获得的结果，研究人员证明了实验方法的优势，因为它可以更准确地识别和量化偏见。

研究结果表明，CLIP模型在分析人脸图像时展现出类似于人类的社会判断能力，并且这种判断受到年龄、性别和人种等因素的影响。特别是对于黑人女性的脸部图像，模型表现出了一种极端的社会感知模式，无论是在不同的年龄段还是表情上。此外，研究发现面部表情对社会感知的影响比年龄更大，而光线条件对社会感知的影响与年龄相似。这些发现提示我们，在不控制非保护属性的情况下进行的研究可能会得出错误的结论。通过对三个不同数据集（CausalFace、FairFace和UTKFace）的比较，研究还指出，未经控制的属性可能导致噪声测量，并掩盖某些有趣的现象。总体而言，研究强调了在视觉语言模型中存在显著的社会偏见，并提出了进一步探索这些现象的具体方向。