news 2026/4/16 16:15:26

【动手学深度学习】第三课 数据预处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【动手学深度学习】第三课 数据预处理

一、pandas

形象地来说,pandas 是 Python 里专门用来处理“表格型数据”的 “超级工具包”。

为什么机器学习离不开它?

机器学习的第一步是数据预处理,而pandas是完成这个步骤最称手的工具。

  • 拿到的原始数据往往是 CSV/Excel 格式,需要用 pandas 读取并清洗。
  • 它能把杂乱的原始数据,整理成模型可以直接输入的干净特征。
  • 处理完后,通过to_numpy()转成Numpy数组,再转成tensor,就能传给 PyTorch训练模型了。

二、读取数据集

下面步骤都需要进行跟练。

我们首先创建一个人工数据集,并存储在csv文件里。

然后,我们要从这个csv文件中读取原始数据集。

于是,导入pandas包,调用read_csv函数来读取数据集。


三、处理缺失值*

NaN代表缺失值,而机器学习模型无法直接处理包含NaN的数据。因此,处理缺失值(NaN)是数据预处理中必不可少的一步。

首先,通过位置索引iloc,将data分为inputs和outputs。

1. 数值

(1)均值填充

对于inputs中缺少的数值,我们一般采用均值填充法。即用这一列的均值来替换NaN。

inputs.mean()求均值,numeric_only即只针对数值型。

(2)删除法

当然,在实际应用中,如果某一列缺失值占比极高,我们还会采用删除法,见作业第一题。

2. 类别值、离散值

对于inputs中缺少的类别值或离散值,我们将NaN看作一个类别☝️。

比如Alley这一列,它就只有两个类别值:Pave和NaN,pandas会自动将这一列转换为“Alley_Pave”和“Alley_NaN”,然后用0和1来表示这一行的类别值。


四、转换格式

现在inputs和outputs里都是数值类型,我们需要将它转换为Tensor格式。

先要通过to_numpy转成Numpy格式,再通过torch.tensor转成Tensor格式。


五、作业*

创建包含更多行和列的原始数据集。

(懒得自己输,让ai帮我生成了一个学生-成绩表)

1. 删除缺失值最多的列。

第一反应是循环,而pandas的核心优势之一就是向量化操作—— 它会对整个表格进行批量处理,而不需要像操作原生 Python 列表 那样手动写for循环。

(1)首先,读取数据集后,统计每一列的缺失值数量:

  • data.isnull():表格里每个值是否缺失,返回一个跟data一样大的数组
  • data.isnull().sum():默认按列求和

(2)然后,找到缺失值最多的那一列:

  • missing_count.idxmax:返回最大值对应的索引,即列名。

(3)最后,删掉这一列

总的来说,上面是新手建议一步步写的,其实可以写成一句:

2. 将预处理后的数据集转换为张量格式。

(1)先均值填充缺失值

(2)转换

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 15:14:59

数据搬运工-DMA(上)

DMA(Direct Memory Access,直接存储器访问)提供在外设与内存、存储器和存储器之间的高速数据传输使用。它允许不同速度的硬件装置来沟通,而不需要依赖于CPU,在这个时间中,CPU对于内存的工作来说就无法使用。…

作者头像 李华
网站建设 2026/4/16 13:44:34

图像算法优化常用方式-vivado hls设计

一、图像算法优化常用方式 1.双层for循环结构 对于灰度图像或者二值图像&#xff0c;一般使用双层循环 for(ap_uint<32> i0;i<height;i){ for(ap_uint<32> j0;j<height;j){ #pragma HLS pipeline II1 } } 然后对内存循环进行pipeline优化&#xff…

作者头像 李华
网站建设 2026/4/16 13:43:50

AI技术点总结(2)

Query Rewriting&#xff08;查询重写&#xff09; 是什么 一个在检索前对用户原始查询进行主动优化与修正的“预处理”步骤。 能做什么 将模糊、简短或不完整的查询&#xff0c;自动补全、分解或优化为更适合检索的清晰、结构化的形式&#xff0c;从而显著提升后续检索的准确…

作者头像 李华
网站建设 2026/4/15 19:46:50

AI技术点总结(1)

Firecracker是亚马逊开源的一款轻量级虚拟化监视器&#xff0c;专为运行短暂、无状态的微型虚拟机而设计。1. 它是什么&#xff1a;一种极简的虚拟化技术&#xff0c;用于创建和管理安全的隔离环境。 2. 它能做什么&#xff1a;在毫秒级内启动一个虚拟机&#xff0c;以接近裸机…

作者头像 李华
网站建设 2026/4/16 15:15:16

【读书笔记】《遇见莫扎特》

《遇见莫扎特》——天才音乐家的传奇人生 一、开场介绍 天才莫扎特的传奇一生 二、莫扎特的历史地位 2.1 从神童到大师 一般来说&#xff0c;神童长大后可能会荒疏&#xff0c;但莫扎特小时候是神童&#xff0c;长大后是大师&#xff0c;这样的音乐家称得上是伟大的。 2.2 全能…

作者头像 李华