3.5. 图像分类数据集
在介绍shftmax回归的实现前我们先引入一个多类图像分类数据集
本章开始使用pytorch实现啦~
本节我们将使用torchvision包,它是服务于PyTorch深度学习框架的,主要用来构建计算机视觉模型。torchvision主要由以下几部分构成:
-
torchvision.datasets
: 一些加载数据的函数及常用的数据集接口 -
torchvision.models
: 包含常用的模型(含预训练模型),例如 AlexNet、VGG、ResNet等 -
torchvision.transforms
: 常用的图片变换,例如裁剪、旋转等; -
torchvision.utils
: 其他的一些有用的方法
3.5.1. 获取数据集
import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import time
import sys
sys.path.append('..') # 为了导入上层的d2lzh_pytorch
import d2lzh_pytorch as d2l
下面,我们通过torchvision的torchvision.dataset
来下载这个数据集。第一次调用时会自动从网上下载获取数据。我们通过参数train
来指定获取训练集或测试数据集(testing data)。
mnist_train = torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST', train=True, download=True, transform=transforms.ToTensor())
mnist_test = torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST', train=False, download=True, transform=transforms.ToTensor())
数据集下载如果比较慢,建议通过网址下载4个,然后根据下载的目录导入即可。如下图,是下载了(4个文件,这里只说一个,其他类似)train-images-idx3-ubyte.gz到本地的目录C:\Users\1/Datasets/FashionMNIST\FashionMNIST\raw\下.可从网址直接下载4个(无需解压)到该目录下在执行以上代码.
# 上面的 mnist_train 和 mnist_test都是 torch.utils.data.Datasets的子类
# 所以我们可以用len()来获取该数据集的大小,还可以用下标来获取具体的一个样本
# 训练集中和测试集中的每个类别的图像分别是6000和1000。因为有10个类别,所以训练集和测试集的样本数分别为60000和10000
print(type(mnist_train)) # <class 'totchvision.datasets.mnist.FashionMNIST'>
print(len(mnist_train), len(mnist_test)) # 60000 10000
# 通过下标访问任意样本
feature, label = mnist_train[0]
print(feature.shape, label) # torch.Size([1, 28, 28]) tensor(5)
变量feature
对应高和宽均为28像素的图像。由于我们使用了transforms.ToTensor()
,所以每个像素的数值为[0.0, 1.0]的32位浮点数。需要注意的是,feature的尺寸是(C * H * W)的,而不是(H * W * C)。第一维是通道数,因为数据通道数为1.后面两维分别是图像的高和宽
Fashion-MNIST中一共包括了10个类别,分别0、1、2、3、4、5、6、7、8、9
# 本函数已保存在d2lzh包中方便以后使用
def get_fashion_mnist_labels(labels):
# text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
text_labels = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
return [text_labels[int(i)] for i in labels]
# 定义一个可以在一行里面画出多张图像和对应标签的函数
def show_fashion_mnist(images, labels):
d2l.use_svg_display()
_, figs = plt.subplots(1, len(images), figsize= (12, 12))
for f, img, lbl in zip(figs, images, labels):
f.imshow(img.view((28, 28)).numpy())
f.set_title(lbl)
f.axes.get_xaxis().set_visible(False)
f.axes.get_yaxis().set_visible(False)
plt.show()
X, y = [], []
for i in range(10):
# 从数据集中取出10个
X.append(mnist_train[i][0])
y.append(mnist_train[i][1])
show_fashion_mnist(X, get_fashion_mnist_labels(y))
3.5.2. 读取小批量
我们将在训练数据集上训练模型,并将训练好的模型在测试集上评价模型的表现。前面说过, mnist_train
是torch.utils.data.Dataset
的子类,所以我们可以将其传入torch.utils.data.DataLoader
来创建一个读取小批量数据样本的DataLoader实例
batch_size = 256
if sys.platform.startswith('win'):
num_workers = 0 # 0表示不用额外的进程来加速读取数据
else:
num_workers = 4
train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)
start = time.time()
for X,y in train_iter:
continue
print('%.2f sec' % (time.time() - start))