news 2026/4/16 13:06:56

Day42Dataset和Dataloader

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Day42Dataset和Dataloader

1.Dataset类:“存数据的容器”

你可以把它理解成一个数据盒子,里面装着你的数据集(比如图片、标签)。要让这个 “盒子” 能用,得给它加两个 “功能按钮”(Python 的特殊方法):

  • __getitem__(self, idx):按索引idx取数据(比如dataset[0]就能拿到第 1 个样本)。
  • __len__(self):返回数据集的总样本数(比如len(dataset)知道一共有多少数据)。

2.DataLoader类:“给模型端菜的服务员”

Dataset是 “装菜的盘子”,DataLoader就是 “把菜分成小份、端给模型吃” 的人。它的作用是:

  • Dataset里的数据分成批次(比如一次给模型喂 32 个样本,而不是全塞进去)。
  • 支持打乱数据(避免模型学 “顺序” 而不是 “规律”)。
  • 支持多线程加载(加快数据读取速度)。

3. MNIST 手写数据集

这是一个 “手写数字图片集”,里面是 0-9 的手写数字(每张图是 28x28 的黑白色),是深度学习入门常用的 “练习数据集”。

作业:获取 CIFAR 数据集的一张图片

import torch from torchvision import datasets, transforms import matplotlib.pyplot as plt # 1. 加载CIFAR数据集(自动下载到本地) transform = transforms.ToTensor() # 把图片转成PyTorch能处理的格式 cifar_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) # 2. 取第1张图和它的标签 img, label = cifar_dataset[0] # 用Dataset的__getitem__取数据 # 3. 显示图片 plt.imshow(img.permute(1, 2, 0)) # 调整格式(PyTorch是[通道,高,宽],plt需要[高,宽,通道]) plt.title(f"Label: {label}") # 显示标签(CIFAR10的标签是0-9,对应不同类别) plt.show()

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:05:04

Langchain-Chatchat编程技术文档问答表现测评

Langchain-Chatchat 技术文档问答系统深度解析 在企业知识管理日益智能化的今天,如何让堆积如山的技术文档“活起来”,成为一线工程师随问随答的智能助手,正成为一个关键命题。通用大模型虽然能回答广泛问题,但面对公司内部特有的…

作者头像 李华
网站建设 2026/4/13 13:21:29

终极DbTool数据库工具:5分钟快速上手完整指南

终极DbTool数据库工具:5分钟快速上手完整指南 【免费下载链接】DbTool 数据库工具,根据表结构文档生成创建表sql,根据数据库表信息导出Model和表结构文档,根据文档生成数据库表,根据已有Model文件生成创建数据库表sql …

作者头像 李华
网站建设 2026/4/15 21:01:01

【小白友好】一文搞懂大语言模型:计算机学习的范式革命与实战指南

大型语言模型(LLM)代表从传统指令编程到学习型智能的范式革命。通过海量文本数据训练,LLM能理解语言模式而非执行预设规则,具备灵活性、适应性和扩展性三大优势。文章解析了LLM的工作原理、发展历程、训练成本、微调技术及面临的幻觉、偏见等挑战&#x…

作者头像 李华
网站建设 2026/4/15 16:30:53

回文链表:algorithm世界里的“自证清白”

回文链表:algorithm世界里的“自证清白” 作者:Echo_Wish 🪞引子:判断“是不是回文”,从来不是表象问题 每个人都有这样的体验: 当我们看人,看项目,看代码的时候,表面往往看不出本质。 有些人外表漂亮,行为却糟糕; 有些人外表普通,内核却干净纯粹。 链表也是这…

作者头像 李华
网站建设 2026/4/16 1:16:39

Langchain-Chatchat结合向量数据库的高效知识存储策略

Langchain-Chatchat结合向量数据库的高效知识存储策略 在企业智能化转型的浪潮中,一个现实而棘手的问题日益凸显:如何让大语言模型真正“懂业务”?通用模型虽然能写诗、编故事,但在面对“我们公司年假怎么申请”这类具体问题时&a…

作者头像 李华
网站建设 2026/4/16 11:14:46

Qwen-Agent智能体开发终极指南:从零到一的完整实践手册

Qwen-Agent智能体开发终极指南:从零到一的完整实践手册 【免费下载链接】Qwen3-8B-MLX-6bit 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-8B-MLX-6bit 想要快速构建功能强大的AI智能体应用吗?Qwen-Agent框架正是你需要的利器&#…

作者头像 李华