ImageFolder---合并dataset

最新推荐文章于 2024-07-09 18:47:34 发布

程适场

最新推荐文章于 2024-07-09 18:47:34 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： python pytorch 合并dataset 超出文件数目限制

本文链接：https://blog.csdn.net/qq_41876213/article/details/127176079

ImageFolder 用于读取文件夹内的图片与类别，生成Map-style datasets形式的数据集，以便DataLoader迭代。ImageFolder使用格式：

root/dog/xxx.png
root/dog/xxy.png
root/dog/[...]/xxz.png

root/cat/123.png
root/cat/nsdf3.png
root/cat/[...]/asd932_.png

但是由于各种原因，如原生数据存储格式，某些操作系统(如centos)中单个目录中最大文件数量存在限制(hdf5 yyds)等等，使得数据的存储是分开的，如：

sub_root1/dog/xxx.png
sub_root1/dog/xxy.png
sub_root1/dog/[..

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程适场

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【ChatGPT模型精调训练】AI 大模型精调 Fine-Tuning （微调）训练图文代码实战详解

AI天才研究院

03-09

2069

选择预训练模型：选择一个在类似任务上已经训练好的模型作为起点。数据准备：准备并预处理你的数据集，使其适合模型的输入格式。微调：在你的特定数据集上继续训练模型，调整模型的权重。评估：评估微调后模型的性能。应用：将微调后的模型部署到实际应用中。Fine-Tuning（精调）是指在预训练模型的基础上，对模型进行微调，使其适应特定任务。预训练模型通常在大量无标签数据上进行训练，以学习通用的语言表示。通过 Fine-Tuning，我们可以在较小的标签数据集上训练模型，以便模型能够更好地解决特定任务。

从pytorch的transfer learning tutorial讲分类任务的数据读取（深入分析torchvision.datasets.ImageFolder源码）

gaishi_hero的博客

08-25

8075

看了pytorch官方提供的tutorial中transfer learning这个例子，对其中的数据读取部分很是模糊，于是仔细分析了一番，今天写一篇博客记录一下自己所看所得。 dataloader 下面这段代码最终得到了dataloader，dataloader是python中的可迭代对象，我们可以通过for循环讲数据一一取出。 data_transforms = { ...

参与评论您还未登录，请先登录后发表或查看评论

MindSpore易点通·精讲系列--数据集加载之ImageFolderDataset

kaierlong的博客

06-21

1979

MindSpore易点通·精讲系列--数据集加载之ImageFolderDataset

datasets.ImageFolder和torch.utils.data.DataLoader

a533855的博客

05-17

231

类从文件系统中加载图像数据，并返回图像和对应的标签。DataLoader类处理批量加载和多线程加载数据，以提高数据加载的效率。通过结合和DataLoader，可以高效地加载和处理大型图像数据集，并在深度学习模型训练过程中使用这些数据。

多个DataSet数据合并

weixin_30563319的博客

12-19

801

DataSet ds = myIAppSet.GetHomeHottestList(siteID, 0, time); DataSet ds1 = myIAppSet.GetHomeHottestList(siteID, 1, time); if (ds1 != null && ds1.Tables[0].Rows.Count > 0) { ds.Mer...

LLM - 批量加载 dataset 并合并

BITDDD小栈

09-12

2205

LLM dataset 批量加载 dataset 并合并。

Pytorch学习-Dataset和DataLoader

Zzz_zhongqing的博客

07-17

1429

Dataset和DataLoader 使用Dataset创建数据集¶ Dataset创建数据集常用的方法有： 1、使用 torch.utils.data.TensorDataset 根据Tensor创建数据集(numpy的array，Pandas的DataFrame需要先转换成Tensor)。 2、使用 torchvision.datasets.ImageFolder 根据图片目录创建图片数据集。 3、继承 torch.utils.data.Dataset 创建自定义数据集。此外，还可以通过 torch.

5-1.Dataset和DataLoader

zy345293721的博客

07-09

1185

下面我们通过另外一种方式，即继承 torch.utils.data.Dataset 创建自定义数据集的方式来对 cifar2构建数据管道。

Pytorch的Dataset和DataLoader

whaosoft143ai的博客

09-01

2230

Pytorch通常使用Dataset和DataLoader这两个工具类来构建数据管道。Dataset定义了数据集的内容，它相当于一个类似列表的数据结构，具有确定的长度，能够用索引获取数据集中的元素。而DataLoader定义了按batch加载数据集的方法，它是一个实现了__iter__方法的可迭代对象，每次迭代输出一个batch的数据。DataLoader能够控制batch的大小，batch中元素的采样方法，以及将batch结果整理成模型所需输入形式的方法，并且能够使用多进程读取数据。

mindspore读取ImageFolderDataset 数据问题

weixin_45666880的博客

06-27

611

问题描述：【功能模块】使用的数据集是caltech101，遇到的问题主要是读取数据标签的问题按文件夹显示 airplanes应该是label 1，但是返回的label确实6 （右下角这个）【截图信息】代码：解答：ImageFolderDataset根据文件名字母的ascii码进行排序。该数据集中有的文件名开头字母为大写，会将大写的文件夹名优先读取。......

MindSpore:ImageFolderDataset数据读取问题

weixin_45666880的博客

07-29

561

1、如果不加最后的data_set.create_dict_iterator()就不会报错，一旦这样输出data_set中的数据，就会报第一张截图上面的错误。dirA//这个路径是参数dataset_dir的输入。（可选，上传日志内容或者附件）确认下目录结构以及里面的数据。...

【深度学习|Pytorch】torchvision.datasets.ImageFolder详解

传统图像处理，深度学习，目标检测（分类，检测，分割），多目标追踪，部署等

04-03

2750

self,root: str,):图片存储的根目录，即存放不同类别图片文件夹的前一个路径。即对加载的这些图片进行的前处理的方式，这里可以传入一个实例化的torchvision.Compose()对象，里面包含了各种预处理的操作。对图片类别进行预处理，通常来说不会用到这一步，因此可以直接不传入参数，默认图像标签没有变换，如果需要进行标签的处理，同样可以传入一个实例化的torchvision.Compose()对象。表示图像数据加载的方式，通常采用默认的加载方式，

【深度学习】datasets.ImageFolder 使用方法

最新发布

01-20

### pseudo-labeling 策略概述 pseudo-labeling 是一种用于半监督学习的技术，在这种技术下，模型不仅依赖于少量标注的数据集进行训练，还能够利用大量未标记的数据来提高泛化能力。该方法的核心在于使用当前模型预测未标记样本的标签，并将这些高置信度的预测作为伪标签加入到训练集中[^3]。 #### 原理 pseudo-labeling 的基本原理是在给定的小规模有标签数据上预训练一个初始分类器之后，用这个初步训练好的分类器去推断大规模无标签数据上的类别分布。对于那些被分类器高度确信属于某一类别的实例，则赋予相应的伪标签并将其视为真实的标签参与到后续迭代中的再训练过程中。这种方法可以有效缓解因缺乏足够的带标签样例而导致过拟合的风险，同时也增强了模型对未知模式的理解力和适应性[^1]。 #### 应用场景 pseudo-labeling 广泛应用于各种计算机视觉任务中，比如图像识别、目标检测以及分割等领域。此外，在自然语言处理方面也有着广泛的应用案例，例如文本分类、情感分析等。特别是在医疗影像诊断这样的领域里，获取高质量的手动标注成本极高，而采用此策略可以在不增加太多额外开销的前提下显著提升系统的准确性与可靠性[^2]。 #### 实现方式以下是基于 PyTorch 框架的一个简单实现例子： ```python import torch from torchvision import datasets, transforms from torch.utils.data.sampler import SubsetRandomSampler import numpy as np def train_pseudo_label(model, labeled_loader, unlabeled_loader, optimizer, criterion, device='cuda'): model.train() for (l_data, l_targets), u_data in zip(labeled_loader, unlabeled_loader): # 将已知标签的数据送入GPU/CPU设备 l_data, l_targets = l_data.to(device), l_targets.to(device) # 对未标记的数据也做同样的操作 u_data = u_data.to(device) # 获取未标记数据经过网络后的输出 with torch.no_grad(): outputs_u = model(u_data).detach() # 计算软标签（即概率） soft_labels = torch.softmax(outputs_u / T, dim=1) # 温度系数T控制锐利程度 # 只保留最有可能的真实标签及其对应的索引位置 max_probs, targets_u = torch.max(soft_labels, dim=-1) mask = max_probs.ge(threshold).float() # 设置阈值过滤低质量伪标签 # 合并两部分数据一起更新权重 combined_inputs = torch.cat([l_data, u_data], 0) combined_targets = torch.cat([l_targets, targets_u * mask.long()], 0) logits = model(combined_inputs) loss = criterion(logits, combined_targets) optimizer.zero_grad() loss.backward() optimizer.step() if __name__ == '__main__': transform_train = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)), ]) dataset_labeled = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train) dataset_unlabeled = datasets.ImageFolder('path_to_your_unlabelled_dataset', transform=transform_train) num_train = len(dataset_labeled) indices = list(range(num_train)) split = int(np.floor(valid_size * num_train)) np.random.shuffle(indices) sampler_labeled = SubsetRandomSampler(indices[:split]) sampler_unlabeled = SubsetRandomSampler(indices[split:num_train]) loader_labeled = torch.utils.data.DataLoader( dataset_labeled, batch_size=batch_size, sampler=sampler_labeled, pin_memory=True, ) loader_unlabeled = torch.utils.data.DataLoader( dataset_unlabeled, batch_size=batch_size*mu, sampler=sampler_unlabeled, pin_memory=True, ) net = YourModel().to(device) opt = optim.SGD(net.parameters(), lr=args.lr, momentum=0.9, weight_decay=5e-4) ce_loss_fn = nn.CrossEntropyLoss(reduction="none") for epoch in range(start_epoch, epochs): train_pseudo_label(net, loader_labeled, loader_unlabeled, opt, ce_loss_fn) ``` 在这个代码片段中，`train_pseudo_label()` 函数展示了如何在一个典型的训练循环内应用 pseudo-labeling 技术。这里的关键点包括但不限于：为未标记数据分配伪标签；设置温度参数 `T` 来调整 softmax 输出的概率分布；定义最小置信度 `threshold` 进行筛选以排除不确定性强的例子；最后则是组合来自两个不同来源的数据来进行联合优化[^4]。