subjectivity-sketch-reid

原创

qq6669490e54384 2024-08-08 10:20:23 博主文章分类：人工智能 ©著作权

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

这里提出了一个多目击者描述的新数据集，包含超过 4,763 个草图和 32,668 张照片，并且对每个身份提供了多个草图。为了推动素描重识别技术的发展，本工作还设定了三个基准（大规模、多风格、跨风格）。素描重识别的主观性研究

在行人重识别领域，我们通常依赖于密集分布的摄像头来匹配照片中的人物。然而，在实际情况下，有时我们可能只拥有目击者提供的主观线索，比如一张素描。这种情况被称为“素描重识别”（Sketch re-ID）。以往的研究只关注了模态差异，事实上，主观性是另一个重大挑战。

我们提出一个多目击者描述的新数据集，它有两个方面的特点。

规模大。它包含超过 4,763 幅素描和 32,668 张照片，是最大的素描重识别数据集。
多视角、多风格。我们的数据集为每个身份提供多个素描。目击者的主观认知为同一个人提供了多个视角，而不同画师的绘画风格则为素描风格提供了变化。为了推动素描重识别技术的发展，我们还设定了三个基准（大规模、多风格、跨风格）。

关键词：素描重识别；多查询检索；主观认知；风格差异

行人重识别用于匹配摄像头系统中的人物。但在实际应用中，摄像头并不总是能够捕捉到所需的照片。有时，我们只能依赖目击者的线索，比如手绘素描或自然语言描述。本研究关注了使用素描作为查询的情况，即素描重识别。与传统的法医面部素描匹配不同，我们使用全身素描来匹配照片数据库。素描重识别面临模态差异、主观性、风格差异等挑战，而以往的研究主要关注模态差异。我们的工作将注意力转向了素描中的主观性问题。

subjectivity-sketch-reid_模态

主观性导致的差异化描述

目前该研究已发布在ACM Multimedia 2023会议上，题目为“Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval”

论文地址：https://arxiv.org/abs/2309.08372

数据集和代码地址：https://github.com/Lin-Kayla/subjectivity-sketch-reid

数据集

为了解决目击者的主观认知和画师的绘画风格所带来的主观性问题，我们收集了一个更加实际的数据集，名为“Market-Sketch-1K”。

subjectivity-sketch-reid_人工智能_02

数据集示例

建模过程

Market-Sketch-1K数据集是基于Market-1501数据集构建的。Market-1501是一个大规模的行人重识别数据集，包含1501个行人的32668张图片，这些组成了Market-Sketch-1K的图片部分。

素描部分的构造过程为：1）从Market-1501 数据库中随机抽取498个身份作为参考子集。2）对于每位画师，我们向他/她展示随机选择的每种身份的照片。这些照片在视角、光线、姿势等方面都有所不同。这种变化迫使艺术家形成对目标人物的总体感知、而不是简单地记住照片。

subjectivity-sketch-reid_模态_03

为每位画家展示不同视角的图片

3）收集到所有素描后，我们将其扫描成电子版，并进行人工核对，裁剪纸张的白边，将素描图像缩小到相同的比例，增强草图线条，最后将创建的草图存档。

数据集特点

Market-Sketch-1K具有以下独特特点：1）大规模。我们的数据集比之前的“PKU-Sketch”数据集大得多（4.7K张素描 vs 200张）。2）多角度和多风格。我们的数据集为每个身份提供多个素描，每个素描都反映了不同目击者的主观认知，因此为同一人物提供了多个视角。每张素描由不同的画师绘制，提供了多种不同的素描风格。

subjectivity-sketch-reid_人工智能_04

数据集划分利用感知度量指标SSIM和SCOOT，我们计算了每两张素描间的相似度。下图可见，绝大多数情况下，同风格间的素描相似度比同行人间的高。也就是说，比起识别图中的行人，画家的风格更容易辨别。这样的差距，正说明视角差异、画家认知差异和风格差异带来的主观性问题更为显著。

subjectivity-sketch-reid_数据集_05

通过丰富和多样化数据集，我们能够实现两个主要目标：1）探讨多种视角和素描风格对行人重识别的影响，2）整合主观性数据，构建更具普适性和稳健性的算法。这一研究为素描重识别的发展提供了重要的贡献。

模型

为了解决主观性引起的难题，我们设计了一个可扩展的素描重识别系统，适用于单一查询和多查询情境，并且能够灵活处理不同数量的输入素描。这个系统包含两个有效的设计：

1.融合多位目击者提供的主观查询：我们引入了一个非局部（NL）融合模块，将来自不同目击者的多个主观素描进行融合。这个模块能够过滤掉多个素描中的噪音，同时保留了长距离的相关性信息。

2.引入客观信息作为指导：在训练阶段，我们引入了一个AttrAlign模块，将属性用作隐式蒙版，用于对齐主观素描和相应的照片。我们发现，这个融合模块不仅有助于处理主观性，还有助于处理风格的变化，使我们的模型能够在未见过的素描风格或不同的数据集上表现良好。

subjectivity-sketch-reid_模态_06

模型概览。训练和测试时均可使用单/多查询检索。模型包括两个特征提取器。在多查询检索时，采用非局部融合模块，将多张素描的特征融合。此外，提出了AttrAlign模块，将行人属性转换为隐性遮罩，来引导不同域的特征对齐。

实验结果

实验证明，在Market-Sketch-1K数据集上，实验效果大幅超过现有跨模态重识别模型。利用Market-Sketch-1K数据集进行预训练，能在PKU-Sketch上提高22%平均精度，说明研究提出的数据集能作为宝贵的预训练资源。

subjectivity-sketch-reid_模态_07

在Market-Sketch-1K上的结果

subjectivity-sketch-reid_数据集_08

在PKU-Sketch上的结果

上一篇：MAmmoTH

下一篇：Occ2Net

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯