torch DataLoader 函数案例

原创

guog算法笔记 2024-09-11 14:00:38 博主文章分类：pytorch ©著作权

文章标签 深度学习 pytorch python 数据集数据加载 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者guog算法笔记的原创作品，请联系作者获取转载授权，否则将追究法律责任

test_dataloader = DataLoader(
    test_dataset,
    collate_fn=collate,
    batch_size=4,
)

DataLoader 是PyTorch提供的一个用于数据加载的类，用于从给定的数据集中批量加载数据。

test_dataset 是一个数据集对象，用于提供要加载的数据。

collate_fn=collate 是一个参数，用于指定数据加载过程中如何组合不同样本的数据形成一个批次。collate 是一个函数或可调用对象，它会接收一个样本列表作为输入，并返回一个组合后的批次数据。

batch_size=4 是一个参数，用于指定每个批次的样本数量。在这个例子中，每个批次将包含4个样本。

因此，上述代码的作用是创建一个名为 test_dataloader 的数据加载器，用于从 test_dataset 中加载数据，并按照每个批次包含4个样本的方式组织数据。

下面是一个示例，演示如何使用该代码：

import torch
from torch.utils.data import DataLoader

# 定义数据集类
class MyDataset:
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

# 自定义collate函数，用于组合样本形成批次数据
def collate(batch):
    # 这里简单地将样本列表转换为张量
    return torch.tensor(batch)

# 创建数据集对象

# test_data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

test_data = [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
            ]

test_dataset = MyDataset(test_data)

# 创建数据加载器
test_dataloader = DataLoader(
    test_dataset,
    collate_fn=collate,
    batch_size=4,
)

# 遍历数据加载器，输出每个批次的数据
for batch in test_dataloader:
    print(batch)

输出

tensor([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]])
tensor([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]])
tensor([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
        [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]])

在这个示例中，首先定义了一个简单的数据集类 MyDataset，其中包含了数据集的长度和获取单个样本的方法。

然后定义了一个自定义的 collate 函数，它接收一个样本列表并简单地将其转换为张量。

接下来，创建了一个数据集对象 test_dataset，并使用它和自定义的 collate 函数创建了数据加载器 test_dataloader，每个批次包含4个样本。

最后，通过遍历 test_dataloader，可以看到每个批次的数据。在这个例子中，前两个批次包含4个样本，最后一个批次包含3个样本。

[torch.from_numpy(x.astype("uint8")) for x in labels]

labels是一个布尔值列表，详细解释上面的代码含义

上面的代码使用了列表推导式和PyTorch的torch.from_numpy()函数，将布尔值列表labels转换为PyTorch的Tensor对象。

让我们逐步解释代码的含义：

torch.from_numpy(x.astype("uint8"))

x.astype("uint8") 将布尔值列表 x 转换为无符号8位整数类型的NumPy数组。这是因为torch.from_numpy()函数要求输入的数组是NumPy数组。
torch.from_numpy() 将NumPy数组转换为PyTorch的Tensor对象。
因此，torch.from_numpy(x.astype("uint8")) 将布尔值列表 x 转换为PyTorch的Tensor对象。

for x in labels：

labels 是布尔值列表。
这个列表推导式遍历 labels 中的每个元素，并将每个元素 x 传递给 torch.from_numpy() 进行转换。
最终得到的是一个包含转换后的 Tensor 对象的列表。

以下是一个示例：

import numpy as np
import torch

# 布尔值列表
labels = [True, False, True, True, False]

# 将布尔值列表转换为Tensor对象的列表
tensor_list = [torch.from_numpy(np.array(x.astype("uint8"))) for x in labels]

# 打印转换后的Tensor对象列表
for tensor in tensor_list:
    print(tensor)

输出结果：

tensor(1, dtype=torch.uint8)
tensor(0, dtype=torch.uint8)
tensor(1, dtype=torch.uint8)
tensor(1, dtype=torch.uint8)
tensor(0, dtype=torch.uint8)

在这个示例中，我们有一个布尔值列表 labels。通过使用列表推导式和torch.from_numpy()函数，我们将布尔值列表转换为了PyTorch的Tensor对象的列表 tensor_list。最后，我们遍历打印 tensor_list 中的每个 Tensor 对象。