PyTorch-2.x部署教程：ipykernel配置多环境切换-编程阁

PyTorch-2.x部署教程：ipykernel配置多环境切换

1. 为什么需要多环境切换？——从一个真实痛点说起

你有没有遇到过这样的情况：
刚跑完一个基于PyTorch 2.1 + CUDA 12.1的LoRA微调任务，转头就要调试一个老项目——它依赖PyTorch 1.13和CUDA 11.7，pip install直接报冲突；或者团队里有人用conda，有人用venv，Jupyter里kernel列表里一堆“python3”“python3.10”“base”“myenv”，点错了就报ModuleNotFoundError: No module named 'transformers'……

这不是配置问题，是开发流断裂。
真正高效的深度学习工作流，不该在“删环境→重装→等半小时→又出错”里反复横跳。

这篇教程不讲抽象原理，只做一件事：让你在同一个JupyterLab界面里，一键切换PyTorch 2.x不同版本、不同CUDA组合、甚至不同Python解释器的内核（kernel）。
核心就三步：确认基础环境 → 创建隔离Python环境 → 注册为Jupyter可用kernel → 在Jupyter中自由切换。
全程命令可复制粘贴，无需改配置文件，不碰jupyter_notebook_config.py，也不需要重启服务。

2. 环境准备：先看清你的底座是什么

你拿到的是PyTorch-2.x-Universal-Dev-v1.0镜像，它不是从零编译的“裸系统”，而是基于官方PyTorch镜像深度优化过的开箱即用环境。我们先快速验证它的能力边界，避免后续操作踩坑。

2.1 检查GPU与CUDA就绪状态

打开终端，第一件事永远是确认显卡是否被正确识别：

nvidia-smi

你应该看到类似这样的输出（以RTX 4090为例）：

+---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.104.05 Driver Version: 535.104.05 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 4090 On | 00000000:01:00.0 On | N/A | +-----------------------------------------+----------------------+----------------------+

注意看右上角的CUDA Version: 12.2—— 这是驱动支持的最高CUDA版本，但实际运行时PyTorch会使用自己编译绑定的CUDA（本镜像预装了11.8和12.1双版本支持）。再验证PyTorch能否调用GPU：

python -c "import torch; print(f'PyTorch {torch.__version__}'); print(f'GPU可用: {torch.cuda.is_available()}'); print(f'当前设备: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A'}')"

预期输出：

PyTorch 2.1.2+cu121 GPU可用: True 当前设备: NVIDIA GeForce RTX 4090

关键信息提取：

2.1.2+cu121表示这是PyTorch 2.1.2，编译时链接CUDA 12.1；
GPU可用: True说明CUDA驱动、PyTorch CUDA扩展、显卡三者已打通；
后续创建的新环境若需GPU加速，必须安装对应CUDA版本的PyTorch（如torch==2.0.1+cu118），否则torch.cuda.is_available()会返回False。

2.2 查看预装工具链与Jupyter状态

本镜像已集成jupyterlab和ipykernel，但Jupyter默认只注册了基础Python环境（即镜像自带的python3）。我们先确认Jupyter能正常启动：

jupyter lab --ip=0.0.0.0 --port=8888 --no-browser --allow-root

如果看到类似http://127.0.0.1:8888/lab?token=xxx的提示，说明服务已就绪（实际访问地址取决于你的部署平台，如CSDN星图镜像广场会自动映射端口）。
此时打开浏览器，新建一个Notebook，在第一个cell里输入：

import sys print(sys.executable) print(sys.version)

你会看到路径类似/opt/conda/bin/python和版本3.10.x—— 这就是镜像的主环境（base environment），也是所有新环境的起点。

注意：不要在base环境里pip install任何包！它专为稳定性和通用性设计，随意安装可能破坏预置依赖关系。所有个性化需求，都应在独立环境中完成。

3. 实战：创建并注册3个典型PyTorch开发环境

我们以三个高频场景为例，创建三个完全隔离的Python环境，并让它们全部出现在Jupyter的Kernel列表中：

场景	Python	PyTorch	CUDA	用途
`pt21-cu121`	3.10	2.1.2+cu121	12.1	主力开发（兼容40系显卡）
`pt20-cu118`	3.10	2.0.1+cu118	11.8	兼容30系/A100旧项目
`pt22-cpu`	3.11	2.2.0+cpu	无	快速验证逻辑，无GPU机器

3.1 创建环境：用conda还是venv？这里选conda

虽然venv更轻量，但conda对CUDA相关包（如cudatoolkit）的版本管理更可靠，且能精确控制Python小版本。本镜像已预装conda，直接使用：

# 创建 pt21-cu121 环境（复用镜像预装的CUDA 12.1） conda create -n pt21-cu121 python=3.10 # 创建 pt20-cu118 环境（需额外安装CUDA 11.8 toolkit） conda create -n pt20-cu118 python=3.10 cudatoolkit=11.8 # 创建 pt22-cpu 环境（纯CPU，用更新的Python 3.11） conda create -n pt22-cpu python=3.11

执行后，conda会列出将要安装的包，输入y确认。每个环境创建约需30-60秒（镜像已配置阿里/清华源，速度远快于默认源）。

3.2 安装PyTorch：关键一步，必须指定CUDA版本

进入每个环境，严格使用PyTorch官网提供的安装命令，确保CUDA版本匹配：

# 激活 pt21-cu121 环境 conda activate pt21-cu121 # 安装PyTorch 2.1.2 + CUDA 12.1（镜像已预配，直接用pip） pip install torch==2.1.2+cu121 torchvision==0.16.2+cu121 torchaudio==2.1.2+cu121 --extra-index-url https://download.pytorch.org/whl/cu121 # 激活 pt20-cu118 环境 conda activate pt20-cu118 # 安装PyTorch 2.0.1 + CUDA 11.8 pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2+cu118 --extra-index-url https://download.pytorch.org/whl/cu118 # 激活 pt22-cpu 环境 conda activate pt22-cpu # 安装PyTorch 2.2.0 CPU版（无CUDA依赖） pip install torch==2.2.0+cpu torchvision==0.17.0+cpu torchaudio==2.2.0+cpu --extra-index-url https://download.pytorch.org/whl/cpu

验证安装是否成功（在各自环境中执行）：

python -c "import torch; print(torch.__version__, torch.cuda.is_available())"

pt21-cu121应输出2.1.2+cu121 True
pt20-cu118应输出2.0.1+cu118 True
pt22-cpu应输出2.2.0+cpu False

3.3 注册为Jupyter Kernel：让它们出现在下拉菜单里

仅安装PyTorch还不够，Jupyter不知道这些环境的存在。我们需要用ipykernel把它们“登记”进Jupyter的kernel registry：

# 在 pt21-cu121 环境中注册 conda activate pt21-cu121 python -m ipykernel install --user --name pt21-cu121 --display-name "Python (pt21-cu121)" # 在 pt20-cu118 环境中注册 conda activate pt20-cu118 python -m ipykernel install --user --name pt20-cu118 --display-name "Python (pt20-cu118)" # 在 pt22-cpu 环境中注册 conda activate pt22-cpu python -m ipykernel install --user --name pt22-cpu --display-name "Python (pt22-cpu)"

--name是内核唯一标识（命令行调用用），--display-name是Jupyter界面上显示的名字。建议命名清晰，避免用py310这类模糊名称。

小技巧：查看已注册的所有kernel

jupyter kernelspec list

输出类似：

Available kernels: pt21-cu121 /root/.local/share/jupyter/kernels/pt21-cu121 pt20-cu118 /root/.local/share/jupyter/kernels/pt20-cu118 pt22-cpu /root/.local/share/jupyter/kernels/pt22-cpu python3 /opt/conda/share/jupyter/kernels/python3

3.4 在Jupyter中切换：所见即所得

重新启动Jupyter Lab（或刷新页面），新建一个Notebook。在右上角找到Kernel选择器（通常显示为“Python (pt21-cu121)”或类似），点击下拉箭头：

选择Python (pt20-cu118)→ 执行!nvidia-smi，你会看到CUDA版本仍是12.2（驱动层），但torch.version.cuda返回11.8（PyTorch编译层）；
选择Python (pt22-cpu)→ 执行torch.cuda.is_available()返回False，但torch.__version__是2.2.0+cpu，证明环境纯净无GPU污染；
切换过程毫秒级完成，无需重启内核，更不用关掉Notebook。

4. 进阶技巧：让多环境管理更省心

4.1 一键清理：删除不再需要的kernel

某天你想删掉pt20-cu118，只需一行命令，彻底清除（包括kernel配置和conda环境）：

# 先卸载Jupyter kernel jupyter kernelspec uninstall pt20-cu118 # 再删除conda环境 conda env remove -n pt20-cu118

4.2 环境导出：备份你的黄金配置

当你调好一个完美环境（比如加了transformers、datasets、peft），想保存下来下次复用：

# 导出为environment.yml（包含所有包及版本） conda activate pt21-cu121 conda env export > pt21-cu121-full.yml # 下次在新机器上重建（自动处理channel和版本） conda env create -f pt21-cu121-full.yml

4.3 自定义Kernel图标：告别“Python (xxx)”的枯燥感

想让pt21-cu121在Jupyter里显示为图标？编辑其kernel配置：

# 进入kernel目录 cd ~/.local/share/jupyter/kernels/pt21-cu121 # 编辑kernel.json nano kernel.json

在"display_name"字段后添加"icon": {"icon": ""}（注意JSON语法），保存后重启Jupyter即可生效。（注：部分Jupyter版本需配合前端插件，此为可选彩蛋）

5. 常见问题与避坑指南

5.1 “Kernel启动失败：ModuleNotFoundError”

现象：在Jupyter中选择新kernel后，右上角显示“Kernel starting, please wait…”然后卡住，或报ModuleNotFoundError: No module named 'IPython'。
原因：ipykernel未在该环境中安装。
解决：激活对应环境后执行

conda activate pt21-cu121 pip install ipykernel

5.2 “CUDA out of memory”但nvidia-smi显示显存充足

现象：pt21-cu121能检测GPU，但训练时报OOM，而nvidia-smi显示显存空闲。
原因：PyTorch 2.x默认启用cudaMallocAsync内存分配器，某些旧驱动或容器环境不兼容。
解决：在代码开头添加

import os os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'

或在启动Jupyter前设置环境变量：

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True jupyter lab ...

5.3 如何在Notebook里动态切换环境？

不能。Jupyter Notebook的kernel在创建时就已绑定Python解释器，无法运行时切换。但你可以：

在一个Notebook中用%run魔法命令调用其他环境的脚本（需提前导出为.py）；
或用subprocess调用外部Python进程（适合批量推理等场景）。

6. 总结：你真正掌握的不是命令，而是开发节奏的掌控力

回顾整个流程，你做的不是“配置环境”，而是构建了一套可预测、可复现、可伸缩的深度学习工作流：

可预测：每个环境的Python、PyTorch、CUDA版本明确锁定，torch.cuda.is_available()结果100%可控；
可复现：environment.yml导出即文档，团队成员conda env create -f就能获得一模一样的环境；
可伸缩：新增一个pt23-cu121环境？只需3条命令：conda create→pip install→ipykernel install，5分钟搞定。

这比“网上搜教程→复制粘贴→报错→再搜→再试”快10倍，也比“全公司统一一个环境”更尊重项目差异性。技术的价值，从来不在炫技，而在把不确定的等待，变成确定的执行。

现在，打开你的Jupyter Lab，点开右上角那个熟悉的Kernel下拉菜单——那里不再是一串令人困惑的“python3”“base”，而是你亲手命名的、代表不同开发场景的清晰选项。每一次点击切换，都是你对工程效率的一次无声确认。