pytorch验证数据集 pytorch自己的数据集

转载

mob64ca1404baa2 2024-06-20 04:17:04

文章标签 pytorch验证数据集人工智能 json python Image 文章分类 PyTorch 人工智能

现在需要在json文件里面读取图片的URL和label，这里面可能会出现某些URL地址无效的情况。

python读取json文件

此处只需要将json文件里面的内容读取出来就可以了

with open("json_path",'r') ad load_f:
    load_dict = json.load(load_f)

json_path是json文件的地址，json文件里面的内容读取到load_dict变量中，变量类型为字典类型。

python通过URL打开图片

通过skimage获取URL图片是简单的方式。

from skimage import io
image = io.imread(img_src) # img_src是图片的URL
io.imshow(image)
io.show()

pytorch构建自己的数据集

pytorch中文网中有比较好的讲解： https://ptorch.com/news/215.html

加载图片预处理以及可视化见： https://oldpan.me/archives/pytorch-transforms-opencv-scikit-image

定义自己的数据集使用类 torch.utils.data.Dataset这个类，这个类中有三个关键的默认成员函数，__init__,__len__,__getitem__。

__init__类实例化应用，所以参数项里面最好有数据集的path，或者是数据以及标签保存的json、csv文件，在__init__函数里面对json、csv文件进行解析。

__len__需要返回images的数量。

__getitem__中要返回image和相对应的label，要注意的是此处参数有一个index,指的返回的是哪个image和label。

import torch
from torchvision import transforms 
import json
import os
from PIL import Image


class ProductDataset(torch.utils.data.Dataset):
    def __init__(self,json_path,data_path,transform = None,train = True):
        with open(json_path,'r') as load_f:
            self.json_dict = json.load(load_f)
        self.json_dict = self.json_dict["images"]
        self.train = train
        self.data_path = data_path
        self.transform = transform

    def __len__(self):
        return len(self.json_dict)

    def __getitem__(self,index):
        image_id = os.path.join(self.data_path + '/',str(self.json_dict[index]["id"]))
        image = Image.open(image_id)
        image = image.convert('RGB')
        label = int(self.json_dict[index]["class"])
        if self.transform:
            image = self.transform(image)
        if self.train:
            return image,label
        else:
            image_id = self.json_dict[index]["id"]
            return image,label,image_id


if __name__ == '__main__':
    val_dataset = ProductDataset('data/FullImageTrain.json','data/train',train=False,
                                transform=transforms.Compose([
                                    transforms.Pad(4),
                                    transforms.RandomResizedCrop(224),
                                    transforms.RandomHorizontalFlip(),
                                    transforms.ToTensor(),
                                    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
                                ]))
    kwargs = {'num_workers': 4, 'pin_memory': True}
    test_loader = torch.utils.data.DataLoader(dataset=val_dataset,
                                                batch_size=32,
                                                shuffle=False,
                                                **kwargs)

    print(val_dataset.__len__())
    count = 0
    for image,label,image_id in test_loader:
        print(image.shape,count)
        count += 1

pytorch验证数据集 pytorch自己的数据集_json