这里提出了一个多目击者描述的新数据集,包含超过 4,763 个草图和 32,668 张照片,并且对每个身份提供了多个草图。为了推动素描重识别技术的发展,本工作还设定了三个基准(大规模、多风格、跨风格)。 素描重识别的主观性研究

在行人重识别领域,我们通常依赖于密集分布的摄像头来匹配照片中的人物。然而,在实际情况下,有时我们可能只拥有目击者提供的主观线索,比如一张素描。这种情况被称为“素描重识别”(Sketch re-ID)。以往的研究只关注了模态差异,事实上,主观性是另一个重大挑战。

我们提出一个多目击者描述的新数据集,它有两个方面的特点。

  1. 规模大。它包含超过 4,763 幅素描和 32,668 张照片,是最大的素描重识别数据集。
  2. 多视角、多风格。我们的数据集为每个身份提供多个素描。目击者的主观认知为同一个人提供了多个视角,而不同画师的绘画风格则为素描风格提供了变化。为了推动素描重识别技术的发展,我们还设定了三个基准(大规模、多风格、跨风格)。

关键词:素描重识别;多查询检索;主观认知;风格差异

行人重识别用于匹配摄像头系统中的人物。但在实际应用中,摄像头并不总是能够捕捉到所需的照片。有时,我们只能依赖目击者的线索,比如手绘素描或自然语言描述。本研究关注了使用素描作为查询的情况,即素描重识别。与传统的法医面部素描匹配不同,我们使用全身素描来匹配照片数据库。素描重识别面临模态差异、主观性、风格差异等挑战,而以往的研究主要关注模态差异。我们的工作将注意力转向了素描中的主观性问题。

subjectivity-sketch-reid_模态

主观性导致的差异化描述

目前该研究已发布在ACM Multimedia 2023会议上,题目为“Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval”

论文地址:https://arxiv.org/abs/2309.08372

数据集和代码地址:https://github.com/Lin-Kayla/subjectivity-sketch-reid

数据集

为了解决目击者的主观认知和画师的绘画风格所带来的主观性问题,我们收集了一个更加实际的数据集,名为“Market-Sketch-1K”。

subjectivity-sketch-reid_人工智能_02

数据集示例

建模过程

Market-Sketch-1K数据集是基于Market-1501数据集构建的。Market-1501是一个大规模的行人重识别数据集,包含1501个行人的32668张图片,这些组成了Market-Sketch-1K的图片部分。

素描部分的构造过程为:1)从Market-1501 数据库中随机抽取498个身份作为参考子集。2)对于每位画师,我们向他/她展示随机选择的每种身份的照片。这些照片在视角、光线、姿势等方面都有所不同。这种变化迫使艺术家形成对目标人物的总体感知、而不是简单地记住照片。

subjectivity-sketch-reid_模态_03

为每位画家展示不同视角的图片

3)收集到所有素描后,我们将其扫描成电子版,并进行人工核对,裁剪纸张的白边,将素描图像缩小到相同的比例,增强草图线条,最后将创建的草图存档。

数据集特点

Market-Sketch-1K具有以下独特特点:1)大规模。我们的数据集比之前的“PKU-Sketch”数据集大得多(4.7K张素描 vs 200张)。2)多角度和多风格。我们的数据集为每个身份提供多个素描,每个素描都反映了不同目击者的主观认知,因此为同一人物提供了多个视角。每张素描由不同的画师绘制,提供了多种不同的素描风格。

subjectivity-sketch-reid_人工智能_04

数据集划分利用感知度量指标SSIM和SCOOT,我们计算了每两张素描间的相似度。下图可见,绝大多数情况下,同风格间的素描相似度比同行人间的高。也就是说,比起识别图中的行人,画家的风格更容易辨别。这样的差距,正说明视角差异、画家认知差异和风格差异带来的主观性问题更为显著。

subjectivity-sketch-reid_数据集_05

通过丰富和多样化数据集,我们能够实现两个主要目标:1)探讨多种视角和素描风格对行人重识别的影响,2)整合主观性数据,构建更具普适性和稳健性的算法。这一研究为素描重识别的发展提供了重要的贡献。

模型

为了解决主观性引起的难题,我们设计了一个可扩展的素描重识别系统,适用于单一查询和多查询情境,并且能够灵活处理不同数量的输入素描。这个系统包含两个有效的设计:

1.融合多位目击者提供的主观查询:我们引入了一个非局部(NL)融合模块,将来自不同目击者的多个主观素描进行融合。这个模块能够过滤掉多个素描中的噪音,同时保留了长距离的相关性信息。

2.引入客观信息作为指导:在训练阶段,我们引入了一个AttrAlign模块,将属性用作隐式蒙版,用于对齐主观素描和相应的照片。我们发现,这个融合模块不仅有助于处理主观性,还有助于处理风格的变化,使我们的模型能够在未见过的素描风格或不同的数据集上表现良好。

subjectivity-sketch-reid_模态_06

模型概览。训练和测试时均可使用单/多查询检索。模型包括两个特征提取器。在多查询检索时,采用非局部融合模块,将多张素描的特征融合。此外,提出了AttrAlign模块,将行人属性转换为隐性遮罩,来引导不同域的特征对齐。

实验结果

实验证明,在Market-Sketch-1K数据集上,实验效果大幅超过现有跨模态重识别模型。利用Market-Sketch-1K数据集进行预训练,能在PKU-Sketch上提高22%平均精度,说明研究提出的数据集能作为宝贵的预训练资源。

subjectivity-sketch-reid_模态_07

在Market-Sketch-1K上的结果

subjectivity-sketch-reid_数据集_08

在PKU-Sketch上的结果