如何制作一份高质量带标签口罩数据集


口罩数据集样本--带标签(口罩数据 100 + 人脸数据 100)

  • ​带标签口罩数据集–maskSet4k Sample ​
  • 口罩数据集:
    因为国内口罩类型种类繁多,因此这里把凡是类似口罩形状能够完全掩面的图片均标注为带了口罩(mask)。
  • 原始数据主要来源:
    SCUT-FBP5500_v2.1--亚洲人脸;
    明星工作照片(机场、发布会、运动场地)多为爬虫所得;
    整合其他一些没有labels 的口罩数据集;
  • 重新制作一份高质量带标签口罩数据集
  • 我所做的主要工作(数据打标+精选)如下
 一:使用pytorch 版本 yolov5 进行二分类 mask 检测,首次模型训练15天,对数据打标;

二:数据+标签,人工筛选

三:打标数据更新数据集再次训练,提升模型精度

四:二三步骤反复迭代 三次,最终得到 准确率(accuracy)高达 0.995 ,召回率 0.99 的检测模型;

五:对数据标签的再次人工筛选,整理得到 maskSet4k 数据集;

maskSet4k 口罩数据集,主要包含内容如下:


下载压缩包之后,解压内容如下:

如何制作一份高质量带标签口罩数据集,口罩数据集简单总结_计算机视觉

不带口罩数据,示例如下:

如何制作一份高质量带标签口罩数据集,口罩数据集简单总结_目标检测_02

带口罩数据,示例如下:

如何制作一份高质量带标签口罩数据集,口罩数据集简单总结_计算机视觉_03


该数据集主要特点如下:


  • 训练数据量 4k, mask 和 unmak 比例 1:1
  • 标注准确率极高,因为模型迭代训练一个月的过程中,自己做人工检测和数据标签修正花费2个周末
  • 对于一个图片中存在多张人脸,会有部分人脸没有标签,因为模型检测不到(或者无法判断),那这样的人脸就是没有标签的;但是对于模型训练而言,这样的数据是没有影响的;
  • 现有公开口罩数据集特点:数据量小,不带标签或者标签很不准确,本数据集有质量保证
  • 网上下载的口罩数据集,通常需要花费精力整理和筛选才能够真正使用
  • 该数据为真实场景佩戴的口罩(非模拟)
  • 仅适用于二分类(戴口罩 0 与 不戴 1),口罩检测