news 2026/4/16 5:35:04

DeepSpeed v0.18.3 发布:优化性能与稳定性,增强兼容性与调试体验

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSpeed v0.18.3 发布:优化性能与稳定性,增强兼容性与调试体验

DeepSpeed 正式发布了v0.18.3版本,本次更新重点围绕性能优化、调试工具增强、兼容性改进以及优化器与硬件支持拓展展开。该版本包含多个细节更新,进一步提升了分布式训练的稳定性与可扩展性。以下为本次版本的主要更新内容。


一、系统与构建改进

  • 更新 version.txt 文件,确保版本管理一致性。
  • 更新模态持续集成逻辑(modal CI),修复并改进相关流程。
  • 解释并完善 leaf 模块说明,便于用户理解模块功能。
  • 禁用部分 nv-lightning 配置项,优化持续集成测试过程。
  • 使用 PyTorch 工具检测 ninja 构建工具,提高编译检测的可靠性。
  • 信任 Intel 服务器以进行 XPU 测试,增强跨硬件平台的测试安全性。
  • PyTorch 兼容的 backward API,进一步提升与 PyTorch 的接口一致性。
  • 启用 compiled autograd 进行反向传播,提升反向计算性能。

二、优化器与学习率改进

  • Muon 优化器支持独立学习率参数:允许分别设置 “muon_lr” 和 “adam_lr”,以便更灵活地控制优化器的学习率。
  • Muon 优化器动量缓存在 GPU 上,减少主机与设备之间的数据传输,提高训练效率。
  • 低精度主参数/梯度/优化器状态支持,增强在 FP8、FP16 与 BF16 等低精度训练场景下的性能与稳定性。

三、内存与性能优化

  • see_mem_usage 工具改进:确保无论何种情况下都能正确输出内存使用信息。
  • 使调试工具更加健壮,在异常和边界情况下保证运行稳定。
  • Zero Stage 1-2 优化:在未配置时不再固定内存,从而减少不必要的内存占用。
  • 修复在加载模型或 Zero 检查点时 ds_secondary_tensor 可能出现的数据污染问题,提高模型加载与恢复的正确性。
  • 在交换张量为空时跳过 aio wait 操作,进一步提升性能与资源利用效率。

四、测试与数值稳定性改进

  • 改进 ROCm FP8 单元测试:对 FP16 和 BF16 情况放宽容差,以适应更多硬件环境。
  • 放宽低精度计算的限制,增强在 AMD GPU 等环境下的稳定性。

五、功能拓展与社区支持

  • 新增 Qwen2.5 模型至 AutoTP 模型列表,支持更多自动并行模型配置。
  • 更新安全文档(SECURITY.md)指向 GitHub 官方报告渠道,统一安全报告流程。
  • 新增关于 Ray 与 DeepSpeed 联合技术交流会的资讯,促进社区合作与技术传播。

六、监控与性能分析

  • 新增 Wall Clock Timers API,为用户提供更精确的时间统计和性能分析接口,方便评估训练过程中的时间分布与瓶颈。

总结:
DeepSpeed v0.18.3 版本在保持高性能的同时,进一步提升了系统的稳定性、灵活性和兼容性。此次更新特别加强了优化器配置能力、内存管理与调试工具的可靠性,对于使用分布式训练的研究团队和开发者而言,将提供更高效、更可控的深度学习训练体验。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:40:57

transformer模型详解系列:Wan2.2-T2V-5B中的架构创新点

Wan2.2-T2V-5B:轻量级文本到视频生成的架构突破 在短视频内容爆炸式增长的今天,创作者对“快速出片”的需求前所未有地强烈。然而,传统文本到视频(Text-to-Video, T2V)模型动辄百亿参数、依赖多卡A100集群,…

作者头像 李华
网站建设 2026/4/16 12:15:00

MOOTDX股票数据分析实战指南:从入门到精通掌握通达信数据接口

MOOTDX股票数据分析实战指南:从入门到精通掌握通达信数据接口 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装 项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx 还在为获取实时股票行情数据而烦恼吗?想要快速搭建自己的量化…

作者头像 李华
网站建设 2026/4/16 10:44:06

Wan2.2-T2V-5B本地化部署与HuggingFace镜像网站加速下载技巧

Wan2.2-T2V-5B本地化部署与HuggingFace镜像网站加速下载技巧 在短视频内容爆炸式增长的今天,创作者和开发者对“一键生成视频”的需求从未如此迫切。然而,现实却常常令人沮丧:想要尝试最新的文本到视频(T2V)模型&…

作者头像 李华
网站建设 2026/4/16 15:25:53

哪家专业?带你了解固液混合电容的秘密

哪家专业?带你了解固液混合电容的秘密行业痛点分析在固液混合电容领域,当前存在诸多技术挑战。一方面,传统电容在高功率、高频率应用场景下,容易出现容量衰减、发热严重等问题,影响设备的稳定性和可靠性。数据表明&…

作者头像 李华
网站建设 2026/4/16 14:06:22

BaiduPCS-Go:终端环境下的百度网盘高效管理解决方案

BaiduPCS-Go:终端环境下的百度网盘高效管理解决方案 【免费下载链接】BaiduPCS-Go 项目地址: https://gitcode.com/gh_mirrors/baid/BaiduPCS-Go BaiduPCS-Go是一款专为命令行环境设计的百度网盘管理工具,通过终端命令实现文件上传、下载、搜索等…

作者头像 李华
网站建设 2026/4/16 12:21:56

Windows下Python安装Stable Diffusion 3.5 FP8踩坑总结

Windows下Python安装Stable Diffusion 3.5 FP8踩坑总结 在AI生成图像技术飞速发展的今天,越来越多的设计师、开发者和内容创作者希望在本地设备上运行高性能的文生图模型。然而,当面对像 Stable Diffusion 3.5 这样参数庞大、显存需求高的模型时&#x…

作者头像 李华