news 2026/6/10 19:01:16

MindSpeed LLM适配Qwen3-Coder-Next并上线魔乐社区,训练推理教程请查收

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MindSpeed LLM适配Qwen3-Coder-Next并上线魔乐社区,训练推理教程请查收

MindSpeed LLM作为昇腾AI生态的重要技术支撑,专为大规模语言模型设计,具有超强的计算能力和灵活的开发支持。Qwen3-Coder-Next一发布,MindSpeed LLM框架立刻支持跑通。MindSpeed LLM快速部署与应用Qwen3-Coder-Next的教程已上线魔乐社区,欢迎开发者体验!

🔗 模型权重链接:https://modelers.cn/models/Qwen-AI/Qwen3-Coder-Next

🔗 MindSpeed LLM训练推理教程:https://modelers.cn/models/MindSpeed/Qwen3-Coder-Next

01 MindSpeed LLM无缝支持跑通模型

MindSpeed LLM为开发者提供了一个稳定、高效的平台来快速部署和调优 Qwen3-Coder-Next模型。

  • 硬件与框架深度协同,立刻跑通:MindSpeed LLM与昇腾NPU的深度集成,使得 Qwen3-Coder-Next大语言模型在发布的第一时间内,就能够顺利跑通并高效运行。无论是在训练过程中,还是在推理阶段,MindSpeed LLM都为 Qwen3-Coder-Next提供了最佳的硬件加速支持,确保性能的最大化释放。
  • 开箱即用,无需复杂配置:开发者只需简单配置,即可在MindSpeed LLM上无缝运行 Qwen3-Coder-Next模型。框架提供了完整的工具链,帮助开发者快速将 Qwen3-Coder-Next应用到实际项目中,减少了复杂的调优过程,缩短了开发周期。
  • 分布式计算优化:MindSpeed LLM内置的分布式计算能力,能够有效利用多台昇腾AI硬件,确保 Qwen3-Coder-Next在大规模并发任务下的稳定运行,极大提升了处理效率和响应速度。

MindSpeed LLM框架与Qwen3-Coder-Next的同步发布并立刻支持跑通,标志着昇腾平台在大语言模型领域的技术实力再次提升。开发者可以在第一时间内,借助强大的昇腾计算能力,快速将 Qwen3-Coder-Next应用于实际项目,进一步加速智能应用的落地

本教程将引导您完成从环境准备到模型训练的完整过程,确保您能够快速上手并顺利跑通 Qwen3-Coder-Next模型。我们提供详细的步骤说明,帮助您在MindSpeed框架下实现 Qwen3-Coder-Next模型的无缝运行。

02 环境配置

硬件要求

qwen3_coder_next的参考硬件配置如下,本文将以4台Atlas 900 A3 SuperPoD 32卡训练和在线推理对话为例进行介绍:

MindSpeed LLM仓库部署

MindSpeed LLM的主要依赖配套如下表,安装步骤参考安装指导(https://gitcode.com/Ascend/MindSpeed-LLM/blob/master/docs/pytorch/install_guide.md)。

1. 仓库拉取

git clone https://gitcode.com/ascend/MindSpeed-LLM.git git clone https://github.com/NVIDIA/Megatron-LM.git # megatron从github下载,请确保网络能访问 cd Megatron-LM git checkout core_v0.12.1 cp -r megatron ../MindSpeed-LLM/ cd ../MindSpeed-LLM git checkout master pip3 install -r requirements.txt mkdir logs mkdir dataset mkdir ckpt

2. 环境搭建

torch npu 与 CANN包参考链接:https://support.huawei.com/enterprise/zh/ascend-computing/cann-pid-251168373/software

# python3.10 conda create -n test python=3.10 conda activate test # 安装 torch 和 torch_npu,注意要选择对应python版本、x86或arm的torch、torch_npu及apex包 pip install torch-2.7.1-cp310-cp310m-manylinux2014_aarch64.whl pip install torch_npu-2.7.1*-cp310-cp310m-linux_aarch64.whl # apex for Ascend 参考 https://gitee.com/ascend/apex # 建议从原仓编译安装 # 使能环境变量 source /usr/local/Ascend/cann/set_env.sh # 修改为实际安装的Toolkit包路径 source /usr/local/Ascend/nnal/atb/set_env.sh # 修改为实际安装的nnal包路径 # 安装加速库 git clone https://gitcode.com/ascend/MindSpeed.git cd MindSpeed git checkout master # checkout commit from MindSpeed master pip3 install -r requirements.txt pip3 install -e . cd .. # 安装其余依赖库 pip install -r requirements.txt

03权重转换

权重下载

从魔乐社区下载权重和配置文件:

https://modelers.cn/models/Qwen-AI/Qwen3-Coder-Next

权重转换

MindSpeed LLM提供脚本将已开源权重转换为mcore权重,用于训练、推理、评估等任务。

脚本链接:https://gitcode.com/Ascend/MindSpeed-LLM/blob/master/examples/mcore/qwen3_coder_next/ckpt_convert_qwen3_coder_next_80b_hf2mcore.sh

使用方法如下,请根据实际需要的TP/PP等切分策略和权重路径修改权重转换脚本。

cd MindSpeed-LLM bash examples/mcore/qwen3_coder_next/ckpt_convert_qwen3_coder_next_80b_hf2mcore.sh

04数据预处理

预训练数据预处理

MindSpeed LLM提供脚本进行数据集处理(https://gitcode.com/Ascend/MindSpeed-LLM/blob/master/examples/mcore/qwen3_coder_next/data_convert_qwen3_coder_next_pretrain.sh)。

使用方法如下:

cd MindSpeed-LLM bash examples/mcore/qwen3_coder_next/data_convert_qwen3_coder_next_pretrain.sh

请根据实际需要修改以下参数:

微调数据预处理

MindSpeed LLM提供脚本进行数据集处理(https://gitcode.com/Ascend/MindSpeed-LLM/blob/master/examples/mcore/qwen3_coder_next/data_convert_qwen3_coder_next_instruction.sh)

使用方法如下:

cd MindSpeed-LLM bash examples/mcore/qwen3_coder_next/data_convert_qwen3_coder_next_instruction.sh

请根据实际需要修改以下参数:

05预训练

执行以下命令:

cd MindSpeed-LLM bash examples/mcore/qwen3_coder_next/pretrain_qwen3_coder_next_80b_4K_A3_ptd.sh

需要根据实际情况修改脚本中以下变量:

06微调

执行以下命令:

cd MindSpeed-LLM bash examples/mcore/qwen3_coder_next/tune_qwen3_coder_next_80b_4K_full_ptd.sh

需要根据实际情况修改脚本中以下变量:

07在线推理对话

执行以下命令:

cd MindSpeed-LLM bash examples/mcore/qwen3_coder_next/generate_qwen3_coder_next_80b_ptd.sh

需要根据实际情况修改脚本中以下变量:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 2:28:31

算法学习——素数筛法

素数:一个大于1的自然数,除了1和它本身以外不再有其他因数的数称为素数。合数:一个大于1的自然数,除了1和它本身以外还有其他因数的数称为合数。因数:整数a除以整数b(b≠0)的商正好是整数而没有余数&#x…

作者头像 李华
网站建设 2026/6/10 11:16:16

JEX强化基础结构,应对全球数字资产环境变化

近日,来自多方公开渠道的信息显示,JEX数字资产平台在既有上市规划基础上,对相关路径进行了阶段性结构优化与节奏调整。多位业内人士指出,此轮调整并非进程放缓,而是在当前全球数字资产环境复杂化背景下,对长…

作者头像 李华
网站建设 2026/6/10 11:09:42

多糖纯化干货指南

多糖是由醛糖或酮糖通过糖苷键连接而成的天然高分子多聚物,广泛存在于动物细胞膜、植物细胞壁及微生物细胞壁中,是构成生命体的重要分子基础。它不仅参与多种生命活动,还具备免疫调节、抗肿瘤、抗凝、降血糖等多种生物活性,在医药…

作者头像 李华
网站建设 2026/6/10 11:15:41

凝胶过滤层析

凝胶过滤层析(又称尺寸排阻层析 / SEC、分子筛层析)是生物大分子分离纯化的核心技术,核心逻辑是基于分子大小差异实现高效分离,广泛应用于蛋白、核酸、病毒等生物样品的脱盐、纯化与分析。 一、核心原理 凝胶过滤层析的核心是多…

作者头像 李华
网站建设 2026/6/10 11:16:39

5万吨/天工业废水除铜除镍达标技术:Tulsimer重金属螯合树脂应用实践

在工业废水深度处理领域&#xff0c;大水量与严苛排放指标的双重约束&#xff0c;是困扰众多工业园区的技术痛点。本文结合广东某大型工业园区水质净化厂实际项目&#xff0c;针对每日50000m工业废水、总镍<0.1mg/L、总铜<0.3mg/L的排放要求&#xff0c;详解以Tulsimer C…

作者头像 李华