news 2026/5/9 22:54:01

CANN技术博客与最佳实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN技术博客与最佳实践

介绍

【免费下载链接】cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。项目地址: https://gitcode.com/cann/cann-learning-hub

这里将介绍CANN在实际业务场景中基于最新技术特性以及实践成果形成的文章博客,帮助大家了解和掌握CANN最新的行业技术动态。

算子

案例名称案例介绍发布时间
基于AICPU引擎的HCCL点对点通信算子开发介绍基于 AICPU+TS 引擎实现 HCCL 自定义 Send/Recv 点对点通信算子,满足 pipeline 并行等灵活通信编排需求。2026.2
AICPU Tiling下沉编程AICPU Tiling下沉编程 将 Tiling 计算下沉到 AICPU,减少 Host 与 Device 交互及拷贝,降低 Host Bound 并提升算子执行效率。2025.12
自定义算子开发系列:Ascend C RTC即时编译Ascend C RTC 通过运行时按实际 shape 即时编译算子,兼顾更优执行性能、更快编译速度和更灵活的算子迭代维护。2025.12
基于昇腾的DeepXTrace推理集群快慢卡在线检测DeepXTrace在昇腾设备面向 MOE 推理集群提供轻量级快慢卡在线诊断能力,支持分钟级精准定位通信 slow 问题,缩短排障时间。2025.12
HCCL ReduceScatter精度优化基于开源 ReduceScatter 进行精度增强改造,在尽量保持通信性能的同时提升分布式计算结果精度。2025.12
transformer仓experimental路径MIX算子开发贡献以矩阵化方式重构 RoPE 并落地首个开源 MIX 算子,在单算子和整网层面同时获得可观性能收益。2025.12
CrossEntropyLoss与Zloss融合算子开发CrossEntropyLoss和Zloss融合算子通过损失函数融合消除串行小算子开销,解决训练尾部瓶颈,在 MoE 场景中实现整网端到端 5.2% 效率提升。2025.11
算子Kernel直调编程通过 Kernel 直调、异构混合编程和模板化能力,简化算子编译部署流程,降低开发实现门槛。2025.11
TilingKey模板化编程借助 TilingKey 模板化编程统一多场景算子开发与管理,同时减少 icache miss 和 scalar 开销,提升调用性能。2025.11

推理

案例名称案例介绍发布时间
Overlap Scheduling吞吐优化通过 CPU 调度与 NPU 执行重叠隐藏下发时延,提升设备利用率,在 LongCat-Flash 场景中带来约 70% 的 TPS 提升。2026.3
第三方框架集成npugraph_ex介绍第三方框架如何接入 npugraph_ex 的图编译与编译缓存能力,进一步降低模型推理冷启动和端到端耗时。2026.2
基于Atlas 900 A3 SuperPoD推理部署Deepseek-R1性能优化实践结合 Omni-Infer 与 CANN 全栈协同优化,在满足 TTFT<2s、TPOT<50ms 的前提下实现 608 QPM 高吞吐推理。2025.12
HIXL、Mooncake与vLLM的KV Cache池化与传输通过 HIXL、Mooncake和vLLM实现KV Cache 池化和高性能 D2D/H2H 传输提升前缀缓存命中率,降低 TTFT 并减少大集群推理成本。2025.12
HIXL在RL推理中的长尾时延优化利用 HIXL 支撑 RL 推理阶段的 PD 分离与高效数据传输,缓解长尾拖慢问题并提升千卡集群资源利用率。2025.12
基于Atlas 900 A3 SuperPoD的LongCat-Flash模型推理性能优化实践结合多流并发、控核与 SuperKernel 等优化手段,显著提升 LongCat-Flash 推理效率,并将 TPOT 优化到 10ms。2025.12
CANN npugraph_ex图模式优化npugraph_ex基于 aclGraph 图捕获与重放能力降低 Host 下发开销,并提供亲和 NPU 的图优化,帮助推理框架获得更低时延。2025.12
基于torch_npu的IPC特性介绍IPC支持跨进程直接共享设备内存,减少显式拷贝开销,在分布式训练和强化学习场景中提升通信效率并节省显存。2025.12
TorchAir自定义FX Pass用自定义 FX Pass 将多流并行等优化从手动脚本改造成自动图变换,减少重复适配代码并提升开发效率。2025.12
SGLang、Mooncake与CANN HIXL的PD分离D2D部署打通 SGLang、Mooncake 与 HIXL 的协同链路,加速 PD 分离 D2D 特性落地,提升 KV Cache 传输效率与部署灵活性。2025.11
SuperKernel技术综述通过将整网重新编译为大算子减少调度与访存开销,在现有优化基础上进一步带来 10% 到 20% 的性能提升。2025.11
vLLM-Ascend推理优化vLLM-Ascend 基于 PagedAttention 和昇腾适配优化 KV Cache 管理与推理执行,提升大模型服务吞吐量并降低内存浪费。2025.11

训练

案例名称案例介绍发布时间
基于昇腾的AReaL全异步RL训练基于全异步 RL、Single Controller 和解耦式 Agentic RL 架构提升训练效率与可靠性,并完成昇腾平台开箱即用适配。2026.3
大模型训练故障恢复方案FlashRecoveryFlashRecovery 面向大模型长周期训练降低故障恢复成本,减少检查点 I/O 与回滚重算损失,让训练任务更快恢复到正常执行。2025.12
基于昇腾的SAM投机解码长序列强化学习训练以无辅助模型的 SAM 投机解码降低 RL 训练 Rollout 延迟,在保证精度无损前提下带来超过 35% 的长尾阶段加速收益。2025.12

【免费下载链接】cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。项目地址: https://gitcode.com/cann/cann-learning-hub

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 22:54:00

基于区块链的AI资产溯源:构建可信机器学习协作生态

1. 项目概述&#xff1a;当AI模型成为数字资产最近几年&#xff0c;我身边不少做算法和模型开发的朋友&#xff0c;都开始为一个问题头疼&#xff1a;辛辛苦苦训练出来的模型&#xff0c;一旦分享出去&#xff0c;就像泼出去的水&#xff0c;后续的迭代、使用、甚至是谁在用&am…

作者头像 李华
网站建设 2026/5/9 22:53:58

Terraform Import实战指南:将现有云资源纳入IaC管理

1. 项目概述&#xff1a;为什么“把老房子写进新图纸”是 Terraform 最常被低估的硬功夫Terraform Import 这个功能&#xff0c;名字听起来像一个安静的后台操作——不就是把已有的云资源“导入”到代码里吗&#xff1f;但在我过去八年带团队落地 IaC&#xff08;Infrastructur…

作者头像 李华
网站建设 2026/5/9 22:50:15

国产SCA工具崛起:Gitee CodePecker SCA如何重塑企业软件供应链安全格局

在数字化转型浪潮席卷全球的当下&#xff0c;软件供应链安全已成为企业不可忽视的战略要地。Gartner最新研究报告揭示了一个令人警醒的事实&#xff1a;超过四分之三的企业曾因第三方组件漏洞遭遇重大安全事件&#xff0c;平均直接经济损失高达120万美元。这一数据背后&#xf…

作者头像 李华
网站建设 2026/5/9 22:47:06

修改寄存器的位操作方法

某一位&#xff08;不分组&#xff09;&#xff1a;对变量某位清零&#xff1a; a & ~(1 <<N); 对变量某位置1&#xff1a; a | (1 <<N); 对变量某位取反&#xff1a; a ^ (1 <<N); 分组&#xff08;连续位&#xff09;的情况&#xff1a;A <…

作者头像 李华
网站建设 2026/5/9 22:46:19

从草图到3D:基于NeRF与生成式AI的智能设计工作流解析

1. 项目概述&#xff1a;当草图遇见AI&#xff0c;一场设计范式的悄然变革在创意设计的漫长历史中&#xff0c;草图一直是连接思维与现实的桥梁。从建筑师在描图纸上的勾勒&#xff0c;到工业设计师在餐巾纸上的灵感迸发&#xff0c;草图以其即时、自由、富有表现力的特性&…

作者头像 李华
网站建设 2026/5/9 22:45:38

CANN量化矩阵乘法算子实现

应用场景说明 【免费下载链接】cann-recipes-harmony-infer 本项目为鸿蒙开发者提供基于CANN平台的业务实践案例&#xff0c;方便开发者参考实现端云能力迁移及端侧推理部署。 项目地址: https://gitcode.com/cann/cann-recipes-harmony-infer 应用层部署大模型面临两大…

作者头像 李华