人工智能运营数据分析人工智能数据

转载

架构师之光 2023-06-09 10:02:02

文章标签 人工智能运营数据分析人工智能深度学习数据集目标识别 文章分类 代码人生

网上有很多可以用于深度学习算法验证的数据集，这里仅列出个人进行人工智能学习和研究工作涉及到的常用数据集，比较适合初学者和刚开始从事人工智能方向研究的工作者。

1. MNIST

MNIST 数据集来自美国国家标准与技术研究所（National Institute of Standards and Technology，NIST），训练集 (training set) 由来自 250 个不同人手写的数字构成，其中 50% 是高中学生，50% 来自人口普查局 (the Census Bureau) 的工作人员。

网址：http://yann.lecun.com/exdb/mnist/

人工智能运营数据分析人工智能数据_深度学习

MNIST是一个初级的人工智能学习的数据集，很多人工智能学习课程都包含了在这个数据集之上的数字识别示例，里面包含60000个训练样本（图像和标签）和10000个测试样本。

训练集目前由Yann LeCun维护。

2. Fashion-MNIST

Fasion-MNIST是一个类似MNIST的训练和测试数据集，它由德国一家时尚科技公司（Zalando）提供，包含了70000张10个类别的服装相关的图片，如T恤、外套、鞋子等。其中包含60000张训练图片和标签以及10000张测试图片和标签。

网址：https://github.com/zalandoresearch/fashion-mnist

人工智能运营数据分析人工智能数据_数据集_02

它的数据格式和操作方式和MNIST相同。

Fashion-MNIST是一个可以替代MNIST的数据集。MINST数据集较为简单，很多简单的识别程序就可以做到准确率99%以上。Fashion-MNIST数据集的对象内容更为复杂，在识别难度上较MNIST更大。Fashion-MNIST也是一个常用于深度学习教学的数据集，同MNIST一样，在有些深度学习框架（如Tensorflow）中集成了数据集的导入。

3. CIFAR-10，CIFAR-100

CIFAR-10是由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理的一个用于普适物体识别的数据集。一共包含了10个类别的RGB彩色图片，如飞机、汽车、鸟类、猫、狗等。每个图片的尺寸为32 × 32 ，每个类别有6000个图像，数据集中一共有50000 张训练图片和10000 张测试图片。

网址：http://www.cs.toronto.edu/~kriz/cifar.html

人工智能运营数据分析人工智能数据_人工智能_03

CIFAR-10也是一个初级的人工智能学习的数据集，很多人工智能学习教程都包含在这个数据集上的图像识别示例。

CIFAR-100是类似CIFAR-10的一个数据集，其中包含了100个类别的图像，每个类别包含600张图片，其中500张为训练图片，100张为测试图片。整个数据集包含60000张图片，其中包含50000张训练图片和10000张测试图片。

4. ImageNet

ImageNet图像数据集是在2009年由斯坦福的李飞飞主导的一个项目形成的一个数据集。李飞飞在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，之后从2010年开始每年举行基于ImageNet数据集的ILSVRC大赛，极大地推动了深度学习和计算机视觉的发展。

ImageNet总共有14197122张图像，分为21841个类别

网址：http://www.image-net.org/

人工智能运营数据分析人工智能数据_人工智能运营数据分析_04

ILSVRC历年的知名网络有
2012年 AlexNet 误检率16.42%
2013年 ZFNet 13.51%
2014年 GoogLeNet 6.67%
VGG 6.8%
2015年 ResNet 3.57%
2016年 ResNeXt 3.03%
2017年 SENet 2.25%

5. PASCAL VOC

PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛, 从2005年开始到2012年结束。PASCAL全称为Pattern Analysis, Statical Modeling and Computational Learning，是一个由欧盟资助的网络组织。PASCAL VOC最初主要用于目标检测，很多经典的目标检测网络都是在PASCAL VOC上训练出来的，比如Fast R-CNN系列的各种网络。

目前PASCAL VOC主要分为VOC2007和VOC2012两个版本，数据分为人、鸟、猫、汽车等20个分类，数据统计如下

人工智能运营数据分析人工智能数据_数据集_05