投稿作者:极链AI研究院顾寅铮

 

今年4月,在北京举行的智源学者计划启动暨联合实验室发布会上,北京旷视科技有限公司与北京智源人工智能研究院共同发布了全球最大的目标检测数据集 – Objects365。

该数据集总共包含63万张图像,覆盖365个类别,高达1000万框数,具有规模大、质量高、泛化能力强的特点,远超Pascal VOC、COCO等传统数据集。关于Objects365的论文 [1] 近日在两年一度的计算机视觉顶会ICCV 2019中发表,同时在不久前结束的谷歌目标检测赛Open Images Challenge 2019 – Object Detection Track [2] 中排名前三的队伍都使用了Objects365作为额外数据集并取得mMAP平均提升2至3个百分点。

1. 规模

数据集包括人、衣物、居室、浴室、厨房、办公、电器、交通、食物、水果、蔬菜、动物、运动、乐器14个大类,平均每一类有大约26个小类。

Objects365 - 最新大规模高质量目标检测数据集_新闻

Objects365与其他数据集的比较

如图1所示,比起COCO数据集 [3],Objects365具有5倍的图像数量、4倍的类别数量、以及10倍以上标注框数量。在数量上,唯一规模超过Objects365的OpenImages数据集 [4] 具有标注精度不高及覆盖不全等明显缺点 (partially annotated),这对模型训练会带来严重影响。比起OpenImages,Objects365具有每张图中所有物体都被标注的优势,这在Boxes/img这列 (15.8 vs. 9.8) 得到体现:在类别数少 (365 vs. 500) 的情况下达到平均每张图包含1.6倍的标注框。

2. 质量

Objects365 - 最新大规模高质量目标检测数据集_新闻_02

图2:

如图2所示,即便只考虑Objects365在COCO和VOC数据集中的80类和20类,在每张图像平均框数和类别数这两项指标上,Objects365依然优于COCO和VOC。标注过程中减少了漏标,平均标注区域占比也超过COCO和VOC。

Objects365 - 最新大规模高质量目标检测数据集_新闻_03

Objects365 - 最新大规模高质量目标检测数据集_新闻_04

物都有精准的标注框。

3. 泛化能力

比起上述两项,鉴定一个数据集质量很重要的一项指标便是其泛化能力。

Objects365 - 最新大规模高质量目标检测数据集_新闻_05

预训练数据集与ImageNet的比较

如图3所示,比起传统预训练数据集ImageNet [5],使用Objects365预训练可达到在训练时间缩短至六分之一 (90K次迭代 vs. 540K次迭代) 的情况下mMAP提升2.7个百分点(检测模型使用ResNet50+FPN作为Backbone的Faster RCNN)。

另外,在其他计算机视觉任务,如行人检测、语义/场景分割等,中使用Objects365作为预训练数据集都可达到速度与精度的明显提升,详情可参照论文 [1]。

4. 结语

随着近年来计算机视觉技术的飞速发展,算法对数据的要求也越来越高。不论是目标检测或语义分割等传统任务,又或是目标关系等新推出或还未推出的新任务,现有的数据集显然不能满足需求。相对于算法,优质数据集往往能对模型效果带来更大的提升,无论是数据规模又或是标注质量,Objects365都为计算机视觉技术树立了新的里程碑。

参考文献:

[1] Shao et al., Objects365: A Large-scale, High-quality Dataset for Object Detection, ICCV 2019.

[2] storage.googleapis.com/openimages/web/challenge2019.html

[3] Lin et al., Microsoft COCO: Common objects in context, ECCV 2014.

[5] Deng et al., ImageNet: A Large-scale Hierarchical Image Database, CVPR 2009.