news 2026/4/15 18:26:13

DAY27 pipeline管道

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DAY27 pipeline管道

一、知识回顾:

1、转化器和估计器的概念

(1)转换器

转化器通俗的来说就是对数据进行预处理的工具,转换器的特点是无状态的,即它们不会存储任何关于数据的状态信息(指的是不存储内参),根据输入数据学习转换规则(比如函数规律、外参),并将其应用于新的数据。

代码示例:

from sklearn.preprocessing import StandardScaler # 初始化转换器 scaler = StandardScaler() # 1. 学习训练数据的缩放规则(计算均值和标准差),本身不存储数据 scaler.fit(X_train) # 2. 应用规则到训练数据和测试数据 X_train_scaled = scaler.transform(X_train)

(2)估计器

估计器是实现机器学习算法的对象或类。估计器的主要方法是fit和predict。fit方法用于根据输入数据,学习模型的参数和规律,而predict方法用于对新的未标记样本进行预测。估计器的特点是有状态的,它们在训练过程中存储了关于数据的状态信息,以便在预测阶段使用。

参考代码:

from sklearn.linear_model import LinearRegression # 创建一个回归器 model = LinearRegression() # 在训练集上训练模型 model.fit(X_train_scaled, y_train) # 对测试集进行预测 y_pred = model.predict(X_test_scaled)

2、管道工程

机器学习的管道机制通过将多个转换器和估计器按顺序连接在一起,可以构建一个完整的数据处理和模型训练流程。具体而言,在管道机制中,可以使用Pipeline类来组织和连接不同的转换器和估计器。Pipeline类提供了一种简单的方式来定义和管理机器学习任务的流程。

二、pipeline管道架构的搭建

1、导入基础库、 Pipeline 和相关预处理工具、机器学习模型和评估工具,并加载原始数据。

2、分离特征和标签,划分数据集

3、定义预处理步骤

(1)识别原始的 object 列

非数值型->离散变量:

(2)构建处理有序特征的 Pipeline:先填充缺失值,再进行有序编码

(3)构建处理标称特征的 Pipeline:先填充缺失值,再进行独热编码

连续性数值

(4)直接从所有列中排除已知的有序和标称特征,构建处理连续特征的 Pipeline: 先填充缺失值,再进行标准化。

(5)基于以上形成的三种Pipeline构建 ColumnTransformer,将不同的预处理应用于不同的列子集,构造一个完备的转化器。

(6)构建完整的 Pipeline,将预处理器和模型串联起来(加入估计器

(7)使用 Pipeline 对模型进行训练和评估。

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 3:29:32

Colima 下 docker pull 失败自查流程

macOS Colima 下 docker pull 超时问题排查总结 一、问题现象 在 macOS 上使用 colima 运行 Docker service 时,执行: docker pull BALABALA报错: Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http…

作者头像 李华
网站建设 2026/4/16 9:23:15

基于springboot的健身房预约与学习管理系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有实…

作者头像 李华
网站建设 2026/4/16 9:23:10

STM32H723 芯片基本配置指南:从新手到专家的进阶之路

引言 作为一名初次接触 STM32H723 芯片的开发者,我在基本配置过程中遇到了不少挑战和困惑。这款高性能的 Cortex-M7 微控制器虽然功能强大,但复杂的配置选项和参数设置确实让人望而生畏。经过一番摸索和实践,我终于掌握了正确的配置方法。今天,我将通过这篇博客,分享我在…

作者头像 李华
网站建设 2026/4/14 10:17:20

探索Comsol中三维结构声子晶体的禁带与传输特性

Comsol 三维结构声子晶体禁带及其传输特性。在材料科学和物理学领域,声子晶体因其独特的声学性质而备受关注。特别是三维结构声子晶体,它在控制声波传播方面展现出巨大的潜力。今天咱们就借助Comsol这个强大的工具,来深入探究三维结构声子晶体…

作者头像 李华
网站建设 2026/4/16 11:01:54

探索 PEM 电解槽三维两相流模拟:基于 Comsol 仿真的奇妙之旅

comsol仿真 PEM电解槽三维两相流模拟,包括电化学,两相流传质,析氢析氧,化学反应热等多物理场耦合,软件comsol,可分析多孔介质传质,析氢析氧过程对电解槽电流密度分布,氢气体积分数…

作者头像 李华
网站建设 2026/4/16 10:52:53

C语言运算符笔记

赋值运算符将不满意的值赋值为自己满意的值&#xff0c;赋值运算符可以连续使用&#xff08;链式赋值&#xff09;。 示例&#xff1a; int a10; int x0; int y20; a x y 1; // 链式赋值 复合赋值符、-、*、/、%、>>、<<、&、|、^单目/双目运算符• 单目运算…

作者头像 李华