PyTorch(二)Dataset 与 DataLoader

本文介绍如何使用PyTorch的Dataset和DataLoader类加载和处理数据。通过具体实例展示了如何自定义Dataset类来加载图像数据,并利用DataLoader进行批处理。适用于初学者了解数据加载流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


Log

2022.08.31八月最后一日,继续学习
2022.10.03九月事情还算可以吧,十月归来学习。后面应该还会回来完善


一、Dataset

  • D a t a s e t \rm Dataset Dataset 类提供一种方式去获取数据及其标签
  • 主要有两个目的:
    • 获取每一个数据及其标签
    • 获取数据的总量大小

1. 在控制台进行操作

①获取图片的基本信息

  • P y c h a r m \rm Pycharm Pycharm 中,点击下方的 P y t h o n C o n s o l e \rm Python Console PythonConsole 进入控制台进行操作(通过控制台可以看到变量的详细信息)
  • 首先加载图片,逐行输入下方代码:
from PIL import Image
img_path = "./dataset/hymenoptera_data/train/ants/0013035.jpg"
img = Image.open(img_path)
  • 此时我们就可以在右侧看到相关变量的信息:
    在这里插入图片描述
  • 点击img变量,可以查看图片的详细信息。通过控制台执行程序能够直观地获取后续操作所需的数据:
    在这里插入图片描述
  • 最后可以通过img.show()打开图片查看:

②获取文件的基本信息

  • 同样还是在控制台逐行输入以下代码:
dir_path = "dataset/hymenoptera_data/train/ants"
import os
img_path_list = os.listdir(dir_path)
img_path_list[0]
  • 我们就可以获取到文件夹下的文件名称,由于是使用控制台,我们还可以在右侧查看列表的详细信息:
    在这里插入图片描述
  • 因此在控制台操作是有很大的优点的,我们可以在控制台逐行执行已经编写好的文件中的语句,通过查看右侧变量的值来判断程序写的是否有问题

2. 编写一个继承 Dataset 的类加载数据

  • 下面的代码也可以在控制台运行(可以多行复制粘贴)来检验程序是否有误

①定义 MyData类

  • 导入所需头文件:
from torch.utils.data import Dataset
from PIL import Image
import os
  • 定义MyData类:
    • __init__:初始化函数
    • __getitem__:返回指定下标的图片和标签
    • __len__:返回数据集的大小
class MyData(Dataset):
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.img_path = os.listdir(self.path)


    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        img = Image.open(img_item_path)
        label = self.label_dir
        return img, label

    def __len__(self):
        return len(self.img_path)
        
  • 其中os.path.join()可以实现多个路径的合并且不出错

②创建类的实例并调用

  • 创建 MyData 类的实例:
if __name__ == "__main__":
    root_dir = "../dataset/hymenoptera_data/train"
    ants_label_dir = "ants"
    bees_label_dir = "bees"
    ants_dataset = MyData(root_dir, ants_label_dir)
    bees_dataset = MyData(root_dir, bees_label_dir)
  • 调用类中写好的函数:
    img, label = ants_dataset.__getitem__(3)
    print(ants_dataset.__len__(), label)
    img.show()
  • 同时我们也可以通过下面这种方式用已有的数据集来创造数据集:
    train_dataset = ants_dataset + bees_dataset

二、DataLoader

  • D a t a L o a d e r \rm DataLoader DataLoader 类是为后面的网络提供不同的数据形式
  • D a t a L o a d e r \rm DataLoader DataLoader 会根据batch_size的值对数据进行打包
  • 导入所需的包
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
  • 加载数据:
test_data = torchvision.datasets.CIFAR10("./dataset", train=False, transform=torchvision.transforms.ToTensor())
test_loader = DataLoader(dataset=test_data, batch_size=64, shuffle=True, num_workers=0, drop_last=True)
  • 测试:
img, target = test_data[0]
print(img.shape)
print(target)
  • 进行日志记录,开始训练:
writer = SummaryWriter("dataloader")
for epoch in range(2):
    step = 0
    for data in test_loader:
        imgs, targets = data
        print(imgs.shape)
        print(targets)
        writer.add_images("Epoch: {}".format(epoch), imgs, step)
        step = step + 1
writer.close()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

竹清兰香

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值