昇思MindSpore学习心得入门-数据集Dataset

关注柠檬王大爷

文章目录

数据集加载
数据集迭代
数据集常用操作
shuffle
map
batch
自定义数据集
可随机访问数据集
可迭代数据集
生成器

昇思MindSpore学习心得入门-数据集Dataset

精选原创

柠檬王大爷 2024-06-27 15:02:49 博主文章分类：AIGC ©著作权

文章标签 数据集数据加载 文章分类 AI作画 AIGC AIGC二三事

©著作权归作者所有：来自51CTO博客作者柠檬王大爷的原创作品，请联系作者获取转载授权，否则将追究法律责任

数据是深度学习的基础，高质量的数据输入将在整个深度神经网络中起到积极作用。MindSpore提供基于Pipeline的数据引擎，通过数据集（Dataset）和数据变换（Transforms）实现高效的数据预处理。其中Dataset是Pipeline的起始，用于加载原始数据。mindspore.dataset提供了内置的文本、图像、音频等数据集加载接口，并提供了自定义数据集加载接口。

此外MindSpore的领域开发库也提供了大量的预加载数据集，可以使用API一键下载使用。本教程将分别对不同的数据集加载方式、数据集常见操作和自定义数据集方法进行详细阐述。

Pipeline 数据引擎是一种用于大数据处理的架构，它通过将复杂的计算任务分解成多个小的、可并行执行的阶段来提高数据处理的效率。在这种架构中，数据在各个阶段之间流动，就像在管道中一样，因此得名 "Pipeline"。这种设计允许数据在不同阶段之间无缝传输，减少了数据在内存和磁盘之间的移动，从而提高了整体的处理速度。

数据集加载

我们使用Mnist数据集作为样例，介绍使用mindspore.dataset进行加载的方法。

mindspore.dataset提供的接口仅支持解压后的数据文件，因此我们使用download库下载数据集并解压。

昇思MindSpore学习心得入门-数据集Dataset_加载

压缩文件删除后，直接加载，可以看到其数据类型为MnistDataset。

昇思MindSpore学习心得入门-数据集Dataset_数据_02

数据集迭代

数据集加载后，一般以迭代方式获取数据，然后送入神经网络中进行训练。我们可以用create_tuple_iterator或create_dict_iterator接口创建数据迭代器，迭代访问数据。

访问的数据类型默认为Tensor；若设置output_numpy=True，访问的数据类型为Numpy。

下面定义一个可视化函数，迭代9张图片进行展示。

昇思MindSpore学习心得入门-数据集Dataset_数据_03

数据集常用操作

Pipeline的设计理念使得数据集的常用操作采用dataset = dataset.operation()的异步执行方式，执行操作返回新的Dataset，此时不执行具体操作，而是在Pipeline中加入节点，最终进行迭代时，并行执行整个Pipeline。

下面分别介绍几种常见的数据集操作。

shuffle

数据集随机shuffle可以消除数据排列造成的分布不均问题。

昇思MindSpore学习心得入门-数据集Dataset_加载_04

mindspore.dataset提供的数据集在加载时可配置shuffle=True，或使用如下操作：

昇思MindSpore学习心得入门-数据集Dataset_数据_05

map

map操作是数据预处理的关键操作，可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集。

对Mnist数据集做数据缩放处理，将图像统一除以255，数据类型由uint8转为了float32。

昇思MindSpore学习心得入门-数据集Dataset_数据_06

对比map前后的数据，可以看到数据类型变化。

batch

将数据集打包为固定大小的batch是在有限硬件资源下使用梯度下降进行模型优化的折中方法，可以保证梯度下降的随机性和优化计算量。

昇思MindSpore学习心得入门-数据集Dataset_数据_07

一般我们会设置一个固定的batch size，将连续的数据分为若干批（batch）。

batch后的数据增加一维，大小为batch_size。

昇思MindSpore学习心得入门-数据集Dataset_加载_08

自定义数据集

mindspore.dataset模块提供了一些常用的公开数据集和标准格式数据集的加载API。

对于MindSpore暂不支持直接加载的数据集，可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集，然后通过GeneratorDataset接口实现自定义方式的数据集加载。

GeneratorDataset支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集，下面分别对其进行介绍。

可随机访问数据集

可随机访问数据集是实现了__getitem__和__len__方法的数据集，表示可以通过索引/键直接访问对应位置的数据样本。

例如，当使用dataset[idx]访问这样的数据集时，可以读取dataset内容中第idx个样本或标签。

昇思MindSpore学习心得入门-数据集Dataset_加载_09

可迭代数据集

可迭代的数据集是实现了__iter__和__next__方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。

例如，当使用iter(dataset)的形式访问数据集时，可以读取从数据库、远程服务器返回的数据流。

下面构造一个简单迭代器，并将其加载至GeneratorDataset。

昇思MindSpore学习心得入门-数据集Dataset_数据集_10

生成器

生成器也属于可迭代的数据集类型，其直接依赖Python的生成器类型generator返回数据，直至生成器抛出StopIteration异常。

下面构造一个生成器，并将其加载至GeneratorDataset。

昇思MindSpore学习心得入门-数据集Dataset_加载_11

赞
收藏
评论
分享
举报

上一篇：昇思MindSpore学习心得入门-张量

下一篇：昇思MindSpore学习心得入门-数据变换Transforms

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册