网上有很多可以用于深度学习算法验证的数据集,这里仅列出个人进行人工智能学习和研究工作涉及到的常用数据集,比较适合初学者和刚开始从事人工智能方向研究的工作者。
1. MNIST
MNIST 数据集来自美国国家标准与技术研究所(National Institute of Standards and Technology,NIST),训练集 (training set) 由来自 250 个不同人手写的数字构成,其中 50% 是高中学生,50% 来自人口普查局 (the Census Bureau) 的工作人员。
网址:http://yann.lecun.com/exdb/mnist/
MNIST是一个初级的人工智能学习的数据集,很多人工智能学习课程都包含了在这个数据集之上的数字识别示例,里面包含60000个训练样本(图像和标签)和10000个测试样本。
训练集目前由Yann LeCun维护。
2. Fashion-MNIST
Fasion-MNIST是一个类似MNIST的训练和测试数据集,它由德国一家时尚科技公司(Zalando)提供,包含了70000张10个类别的服装相关的图片,如T恤、外套、鞋子等。其中包含60000张训练图片和标签以及10000张测试图片和标签。
网址:https://github.com/zalandoresearch/fashion-mnist
它的数据格式和操作方式和MNIST相同。
Fashion-MNIST是一个可以替代MNIST的数据集。MINST数据集较为简单,很多简单的识别程序就可以做到准确率99%以上。Fashion-MNIST数据集的对象内容更为复杂,在识别难度上较MNIST更大。Fashion-MNIST也是一个常用于深度学习教学的数据集,同MNIST一样,在有些深度学习框架(如Tensorflow)中集成了数据集的导入。
3. CIFAR-10,CIFAR-100
CIFAR-10是由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理的一个用于普适物体识别的数据集。一共包含了10个类别的RGB彩色图片,如飞机、汽车、鸟类、猫、狗等。每个图片的尺寸为32 × 32 ,每个类别有6000个图像,数据集中一共有50000 张训练图片和10000 张测试图片。
网址:http://www.cs.toronto.edu/~kriz/cifar.html
CIFAR-10也是一个初级的人工智能学习的数据集,很多人工智能学习教程都包含在这个数据集上的图像识别示例。
CIFAR-100是类似CIFAR-10的一个数据集,其中包含了100个类别的图像,每个类别包含600张图片,其中500张为训练图片,100张为测试图片。整个数据集包含60000张图片,其中包含50000张训练图片和10000张测试图片。
4. ImageNet
ImageNet图像数据集是在2009年由斯坦福的李飞飞主导的一个项目形成的一个数据集。李飞飞在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,之后从2010年开始每年举行基于ImageNet数据集的ILSVRC大赛,极大地推动了深度学习和计算机视觉的发展。
ImageNet总共有14197122张图像,分为21841个类别
ILSVRC历年的知名网络有
2012年 AlexNet 误检率16.42%
2013年 ZFNet 13.51%
2014年 GoogLeNet 6.67%
VGG 6.8%
2015年 ResNet 3.57%
2016年 ResNeXt 3.03%
2017年 SENet 2.25%
5. PASCAL VOC
PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛, 从2005年开始到2012年结束。PASCAL全称为Pattern Analysis, Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。PASCAL VOC最初主要用于目标检测,很多经典的目标检测网络都是在PASCAL VOC上训练出来的,比如Fast R-CNN系列的各种网络。
目前PASCAL VOC主要分为VOC2007和VOC2012两个版本,数据分为人、鸟、猫、汽车等20个分类,数据统计如下
网址:http://host.robots.ox.ac.uk/pascal/VOC/
4. Microsoft COCO
Microsoft COCO(Common Objects in Context)是微软研发维护的一个丰富大型的目标识别数据集。 其数据集内容包含了各种生活场景中的通用对象。包含91类目标,328,000影像和2,500,000个标签。可以用来做目标分割、场景感知、目标识别等算法研究。
它的特点是数据集样本来源于生活场景,很多样本图片中包含多个类别和多个目标,适合在此基础上做和实际场景结合的目标识别、目标分割等算法研究。很多算法研究和学术比赛在这个数据集基础上进行,是目前被采用最为广泛的目标识别算法的测试数据集。