如何制作一份高质量带标签口罩数据集
口罩数据集样本--带标签(口罩数据 100 + 人脸数据 100)
- 带标签口罩数据集–maskSet4k Sample
- 口罩数据集:
因为国内口罩类型种类繁多,因此这里把凡是类似口罩形状能够完全掩面的图片均标注为带了口罩(mask)。 - 原始数据主要来源:
SCUT-FBP5500_v2.1--亚洲人脸;
明星工作照片(机场、发布会、运动场地)多为爬虫所得;
整合其他一些没有labels 的口罩数据集; - 重新制作一份高质量带标签口罩数据集
- 我所做的主要工作(数据打标+精选)如下
maskSet4k 口罩数据集,主要包含内容如下:
下载压缩包之后,解压内容如下:
不带口罩数据,示例如下:
带口罩数据,示例如下:
该数据集主要特点如下:
- 训练数据量 4k, mask 和 unmak 比例 1:1
- 标注准确率极高,因为模型迭代训练一个月的过程中,自己做人工检测和数据标签修正花费2个周末
- 对于一个图片中存在多张人脸,会有部分人脸没有标签,因为模型检测不到(或者无法判断),那这样的人脸就是没有标签的;但是对于模型训练而言,这样的数据是没有影响的;
- 现有公开口罩数据集特点:数据量小,不带标签或者标签很不准确,本数据集有质量保证
- 网上下载的口罩数据集,通常需要花费精力整理和筛选才能够真正使用
- 该数据为真实场景佩戴的口罩(非模拟)
- 仅适用于二分类(戴口罩 0 与 不戴 1),口罩检测