MindSpore开发之路（十五）：模型的持久化：保存与加载Checkpoint-编程阁

你花费了数小时甚至数天的时间，用庞大的数据集训练出了一个性能卓越的深度学习模型。就在你准备用它来大展拳脚时，电脑突然断电，或者程序意外崩溃。如果没有保存模型，那么之前所有的计算资源和时间都将付诸东流。这无疑是一场灾难。

1. 模型持久化是什么

模型持久化，即将训练好的模型的状态（主要是权重参数）保存到文件中，是AI开发流程中必不可少的一环。它赋予了我们：

复用模型的能力：一次训练，多次使用。我们可以随时加载已训练好的模型进行预测、评估或迁移学习，而无需重新训练。
断点续训的保障：在长时间的训练任务中，定期保存模型状态（创建“检查点”，即Checkpoint）。即使训练中断，我们也可以从最近的检查点恢复，继续训练。
分享与协作的基础：将模型文件分享给他人，使其可以在不同的环境和项目中复现你的工作。

在MindSpore中，模型的参数被保存在一种名为Checkpoint（检查点）的文件中，其后缀通常为.ckpt。本文将详细介绍如何优雅地保存和加载这些Checkpoint文件。

2. 方式一：训练时自动保存 (使用`ModelCheckpoint`)

这是最常用、也是最推荐的保存方式。它与mindspore.ModelAPI无缝集成，可以在训练过程中根据预设策略自动为我们保存模型。

我们在之前的文章中已经多次使用过它，现在让我们来深入理解其配置。

ModelCheckpoint主要由两部分构成：主对象ModelCheckpoint和配置策略CheckpointConfig。

2.1`CheckpointConfig`：定义保存策略

这个配置类允许我们精细地控制何时保存、保存多少、如何命名等细节。

核心参数：
- save_checkpoint_steps(int): 每隔多少个step保存一个checkpoint。这是最常用的策略之一。
- save_checkpoint_seconds(int): 每隔多少秒保存一个checkpoint。适用于训练时长不固定的场景。
- keep_checkpoint_max(int): 最多在目录下保留多少个checkpoint文件。当新文件生成时，如果超出此限制，最旧的文件将被删除。这有助于节省磁盘空间。
- async_save(bool): 是否异步执行保存操作。设置为True可以在保存文件时不阻塞主训练流程，从而提升训练性能，尤其是在模型文件较大时。

2.2`ModelCheckpoint`：执行保存动作

这个对象负责在训练中实际执行CheckpointConfig所定义的策略。

核心参数：
- prefix(str): checkpoint文件名的前缀。
- directory(str): 保存checkpoint文件的目录路径。
- config(CheckpointConfig): 关联的保存策略对象。

2.3 综合示例

让我们配置一个策略：在训练LeNet-5时，每隔一个epoch保存一次模型，并且最多保留5个最新的模型文件。

frommindspore.train.callbackimportModelCheckpoint,CheckpointConfig,LossMonitorfrommindsporeimportModel# 假设 net, loss_fn, optimizer, train_dataset 已经定义好# 并且 train_dataset 每个 epoch 有 1875 个 stepsteps_per_epoch=train_dataset.get_dataset_size()# 1. 定义保存策略config=CheckpointConfig(save_checkpoint_steps=steps_per_epoch,# 每隔一个epoch保存一次keep_checkpoint_max=5,# 最多保留5个模型async_save=True# 开启异步保存)# 2. 创建ModelCheckpoint回调# 文件名会是类似 "lenet-1_1875.ckpt", "lenet-2_3750.ckpt" ...ckpt_cb=ModelCheckpoint(prefix="lenet",directory="./checkpoints",config=config)# 3. 在训练时使用回调model=Model(net,loss_fn,optimizer)model.train(epoch=10,train_dataset=train_dataset,callbacks=[LossMonitor(),ckpt_cb])

训练开始后，你会在./checkpoints目录下看到.ckpt文件被自动创建和管理。

3. 方式二：手动保存与加载

在某些场景下，我们可能需要更灵活地、在代码的任意位置保存或加载模型，而不是仅仅依赖于训练循环。例如，在训练结束后，我们想将最终的模型单独保存为一个final.ckpt文件。

MindSpore为此提供了两个简单的函数：mindspore.save_checkpoint和mindspore.load_checkpoint。

3.1`mindspore.save_checkpoint()`：手动保存

这个函数可以直接将一个网络（或一个参数列表）的权重保存到指定的.ckpt文件中。

核心参数：
- save_obj: 需要被保存的对象，通常是你的网络实例net。
- ckpt_file_name(str): checkpoint文件的完整路径和名称。
示例：

importmindspore# 假设 net 是我们已经训练好的网络实例# 在训练流程结束后...print("训练完成，正在手动保存最终模型...")mindspore.save_checkpoint(net,"./checkpoints/final_lenet_model.ckpt")print("模型已保存！")

3.2`mindspore.load_checkpoint()`和`load_param_into_net()`：手动加载

加载模型分为两步：

mindspore.load_checkpoint(ckpt_file_name)：从.ckpt文件中读取参数，并将其加载到一个Python字典中。这个字典的键是网络中的参数名，值是参数的Tensor。
mindspore.load_param_into_net(net, parameter_dict)：将这个参数字典中的值，逐一加载到你的网络实例net中对应的参数上。

示例：

假设我们想在一个新的脚本中加载之前保存的final_lenet_model.ckpt来进行推理。

importmindsporefrommindsporeimportModel,Tensor# 假设 LeNet5 网络定义已经存在fromlenet_model_defineimportLeNet5# 从定义文件导入网络结构# 1. 首先，你需要创建一个与所存模型结构完全相同的网络实例net_for_load=LeNet5()# 2. 加载checkpoint文件到参数字典ckpt_file="./checkpoints/final_lenet_model.ckpt"param_dict=mindspore.load_checkpoint(ckpt_file)# 3. 将参数加载到网络中mindspore.load_param_into_net(net_for_load,param_dict)print("模型加载成功！")# 4. 现在，net_for_load 就包含了训练好的权重，可以用于评估或推理model_for_predict=Model(net_for_load)# ... 执行 model_for_predict.predict(...) ...

重要提示：加载模型前，必须先实例化一个与保存时结构完全一致的网络。如果结构不匹配（例如，某一层Dense的输出维度不同），load_param_into_net将会因为找不到对应的参数名或维度不匹配而报错。

4. 总结

模型的持久化是连接训练与应用、保障研发成果的关键一步。在本文中，我们掌握了MindSpore中两种核心的Checkpoint操作方法：

自动保存：通过ModelCheckpoint和CheckpointConfig回调，在model.train()过程中依据策略自动、高效地保存模型。这是进行长时间训练和常规开发时的首选。
手动保存/加载：使用mindspore.save_checkpoint和mindspore.load_checkpoint+load_param_into_net，可以让我们在任何需要的时候灵活地存取模型参数，非常适用于模型推理、迁移和分享。

熟练运用这两种方法，你就能安全、高效地管理你的模型资产，让你的AI开发工作流更加健壮和灵活。

在下一篇文章中，我们将探讨如何利用MindSpore的可视化组件MindInsight来洞察模型训练的内部行为，敬请期待！

MindSpore开发之路（十五）：模型的持久化：保存与加载Checkpoint

1. 模型持久化是什么

2. 方式一：训练时自动保存 (使用`ModelCheckpoint`)

2.1`CheckpointConfig`：定义保存策略

2.2`ModelCheckpoint`：执行保存动作

2.3 综合示例

3. 方式二：手动保存与加载

3.1`mindspore.save_checkpoint()`：手动保存

3.2`mindspore.load_checkpoint()`和`load_param_into_net()`：手动加载

4. 总结

PyTorch-CUDA-v2.6镜像是否支持rsync增量同步？

PyTorch-CUDA-v2.6镜像是否支持PlanckScale大模型生态？合作推进中

企业级无线网络管理：UniFi容器化部署实战教程

PyTorch-CUDA-v2.6镜像是否支持MAE掩码自编码器？ViT预训练可用

工业自动化中USB2.0通信延迟优化方案详解

LatentSync终极指南：零基础掌握AI唇同步技术

1. 模型持久化是什么

2. 方式一：训练时自动保存 (使用ModelCheckpoint)

2.1CheckpointConfig：定义保存策略

2.2ModelCheckpoint：执行保存动作

2.3 综合示例

3. 方式二：手动保存与加载

3.1mindspore.save_checkpoint()：手动保存

3.2mindspore.load_checkpoint()和load_param_into_net()：手动加载

4. 总结

PyTorch-CUDA-v2.6镜像是否支持rsync增量同步？

PyTorch-CUDA-v2.6镜像是否支持PlanckScale大模型生态？合作推进中

企业级无线网络管理：UniFi容器化部署实战教程

PyTorch-CUDA-v2.6镜像是否支持MAE掩码自编码器？ViT预训练可用

工业自动化中USB2.0通信延迟优化方案详解

LatentSync终极指南：零基础掌握AI唇同步技术

2. 方式一：训练时自动保存 (使用`ModelCheckpoint`)

2.1`CheckpointConfig`：定义保存策略

2.2`ModelCheckpoint`：执行保存动作

3.1`mindspore.save_checkpoint()`：手动保存

3.2`mindspore.load_checkpoint()`和`load_param_into_net()`：手动加载