news 2026/6/10 4:10:32

Scikit-Learn 1.8引入 Array API,支持 PyTorch 与 CuPy 张量的原生 GPU 加速

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Scikit-Learn 1.8引入 Array API,支持 PyTorch 与 CuPy 张量的原生 GPU 加速

Scikit-Learn 1.8.0 更新引入了实验性的 Array API 支持。这意味着 CuPy 数组或 PyTorch 张量现在可以直接在 Scikit-Learn 的部分组件中直接使用了,且计算过程能保留在 GPU 上。

1.8.0 到底更新了什么?

Scikit-Learn 开始正式支持Python Array API 标准。这是一个由 NumPy、CuPy、PyTorch、JAX 等库共同维护的接口规范。在 1.8.0 版本中可以实现:

  • 直接传参:受支持的评估器(estimators)现在可以直接接收 CuPy 数组或 PyTorch 张量。
  • 计算分派:运算会被自动分派到对应的非 CPU 设备(如 GPU)上执行。
  • 状态保留:模型拟合后的属性会与输入数据保持在同一物理设备上。

虽然目前的版本依然贴着“实验性”标签且需要显式开启,但它确实打破了 Scikit-Learn 过去那种“万物皆需 NumPy”的框架。

交叉验证

如果你平时不怎么用

cross_val_score

GridSearchCV

CalibratedClassifierCV

,那你可能感觉不到这次更新的提速。但对大多数从事肃建模的开发者来说,交叉验证一直是 GPU 的“性能杀手”。

在旧版本中,即便你的基础模型(如 XGBoost)是在 GPU 上训练的,Scikit-Learn 的编排逻辑会把数组转回 NumPy,然后在 CPU 上重新计算各项指标。这种频繁的内存搬运和 CPU 的操作浪费了大量的时间,但是Array API 的加入让这种循环能基本闭环在 GPU 内部运行。

开启方式与限制

启用这项特性需要完成下面的配置。如果漏掉任何一步,程序都会悄悄退回到 NumPy 模式。

环境变量设置(必须在导入 SciPy 或 Scikit-Learn 之前):

importos os.environ["SCIPY_ARRAY_API"] ="1"

配置 Scikit-Learn 内部开关

fromsklearnimportset_config set_config(array_api_dispatch=True)

目前还有一个问题,就是不支持cuDF DataFrames。但是你依然可以用 cuDF 做数据加载和预处理,不过输入模型之前必须确保输入是 array-like 格式。也就是说类别特征必须手动编码而且且无法再依赖 pandas/cuDF 的 dtype 自动识别机制。

基于 GPU 的 XGBoost 交叉验证

下面是一个运行 5 折分层交叉验证的示例。为了让整个链路留在 GPU 上,我们需要对

XGBClassifier

做一点小的封装,并结合 cuML 的指标计算。

import os os.environ['SCIPY_ARRAY_API'] = '1' import cupy as cp import cudf from sklearn.model_selection import StratifiedKFold, cross_val_score from sklearn.metrics import make_scorer from cuml.metrics import roc_auc_score from xgboost import XGBClassifier from sklearn import set_config set_config(array_api_dispatch=True) # 加载数据并进行简单的预处理 X = cudf.read_csv('/kaggle/input/playground-series-s5e12/train.csv').set_index('id') y = X.pop('diagnosed_diabetes').astype(int) # 类别特征编码处理 cat_cols = [c for c in X.columns if X[c].dtype == 'object'] X = X.astype({c: 'category' for c in cat_cols}) for c in cat_cols: X[c] = X[c].cat.codes ft = ['c' if c in cat_cols else 'q' for c in X.columns] kfold = StratifiedKFold(5, shuffle=True, random_state=0) # 封装 XGB 以适配 CuPy 预测 class cuXGBClassifier(XGBClassifier): @property def classes_(self): return cp.asarray(super().classes_) def predict_proba(self, X): p = self.get_booster().inplace_predict(X) if p.ndim == 1: p = cp.column_stack([1 - p, p]) return p def predict(self, X): return cp.asarray(super().predict(X)) model = cuXGBClassifier( enable_categorical=True, feature_types=ft, device='cuda', n_jobs=4, random_state=0 ) # 执行交叉验证 scores = cross_val_score( model, X.values, y.values, cv=kfold, scoring=make_scorer( roc_auc_score, response_method="predict_proba" ), n_jobs=1 ) print(f"{scores.mean():.5f} ± {scores.std():.5f}")

虽然这段代码看起来还是需要一些修改,但它确实能让交叉验证循环保持在 GPU 上。

现阶段支持的组件

目前 Array API 的覆盖范围还在逐步扩大。在 1.8.0 中,以下组件已经具备了较好的支持:

  • 预处理StandardScalerPolynomialFeatures
  • 线性模型与校准RidgeCVRidgeClassifierCVCalibratedClassifierCV
  • 聚类与混合模型GaussianMixture

官方提供的一个基于 PyTorch 的 Ridge 管道示例显示,在处理线性代数密集型任务时,这种配置在 Colab 环境下能比单核 CPU 快出 10 倍左右。

ridge_pipeline_gpu = make_pipeline( feature_preprocessor, FunctionTransformer( lambda x: torch.tensor( x.to_numpy().astype(np.float32), device="cuda" ) ), CalibratedClassifierCV( RidgeClassifierCV(alphas=alphas), method="temperature" ), ) with sklearn.config_context(array_api_dispatch=True): cv_results = cross_validate( ridge_pipeline_gpu, features, target )

总结

Scikit-Learn 准备好完全接管 GPU 了吗?显然还没有。但这个版本意义在于,它正已经向GPU的支持迈出了第一步。目前这种方式虽然还有点“硬核”,对普通用户不够友好,但对于追求极致效率的开发者来说,Scikit-Learn 1.8.0 已经要想这个方向前进了。

Scikit-Learn 1.8.0 首次引入实验性 Array API 支持,可直接使用 CuPy 数组或 PyTorch 张量,计算全程保留在 GPU。交叉验证等操作不再强制转回 CPU,大幅提升效率。需配置环境变量与set_config开启,目前支持部分组件如 Ridge、GaussianMixture 等,标志其迈向 GPU 加速的重要一步。

作者:Abish Pius

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 18:43:35

未来已来:Agent技术如何颠覆传统物流仓储的空间管理模式?

第一章:物流仓储Agent空间利用的变革背景随着智能物流与自动化仓储系统的快速发展,传统仓储管理模式在空间利用率、调度效率和响应速度方面面临严峻挑战。人工干预主导的仓库布局已难以应对电商、零售等行业对高密度存储与快速分拣的需求。在此背景下&am…

作者头像 李华
网站建设 2026/6/7 9:09:25

1分钟原型开发:用AI快速生成Vue3 Computed代码

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速生成一个员工考勤统计组件的原型,包含以下computed:1) 根据打卡记录计算每日工作时间 2) 统计本周加班总时长 3) 计算当月迟到次数 4) 生成考勤异常报告…

作者头像 李华
网站建设 2026/6/10 6:30:19

自动驾驶Agent响应延迟超过200ms?,这5个性能瓶颈你必须排查

第一章:自动驾驶Agent的紧急响应在自动驾驶系统中,紧急响应机制是保障行车安全的核心模块。当传感器检测到突发障碍物、前方车辆急刹或行人突然闯入时,自动驾驶Agent必须在毫秒级时间内完成感知、决策与控制指令输出。响应触发条件 常见的紧急…

作者头像 李华
网站建设 2026/6/10 15:58:15

Spring状态机VS传统if-else:效率提升300%的秘密

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个性能对比Demo,分别用Spring StateMachine和传统if-else实现同一个订单状态流转逻辑(至少5个状态,10种转换)。要求&#xff1…

作者头像 李华
网站建设 2026/6/10 15:51:31

比手动搜索快10倍:Postman旧版本获取全攻略

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个浏览器插件,当用户访问Postman官网时自动显示所有历史版本下载选项。功能要求:1)自动检测当前页面是否为Postman下载页 2)展示版本时间线 3)一键下载…

作者头像 李华
网站建设 2026/6/10 15:38:11

零基础教程:5分钟搞定SIM-EKB 2024安装

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个交互式安装向导网页应用,引导用户完成SIM-EKB 2024安装:1. 分步可视化指引;2. 实时错误检测和提示;3. 一键式解决问题功能。…

作者头像 李华