CANN Meetup本周六在北京举办,干货抢先看。
议题一:中石油基于昇腾算子适配的研究与应用
中石油国产算力适配取得突破性进展,实现科学计算、时序模型、多模态、CV等近20个模型在多领域全面落地应用,深度赋能科研创新及生产运营核心业务。通过持续攻坚显存优化、算子开发、精度对齐等技术难题,积累了扎实的工程化实践经验,为能源行业算力自主创新树立了标杆。
议题二:AI赋能化工工艺流程模拟与仿真
构建化工工艺流程模拟优化智能体,通过自然语言描述模拟任务,智能体可自主完成流程模拟软件的配置生成、模拟引擎运行、收敛计算到结果分析的全流程,无需手动操作Aspen Plus等具体模拟软件,并实时沉淀化工模拟专家的知识和经验,让模拟任务从“人驱动工具”变为“AI 自主驱动工艺模拟软件并学习进化”,端到端赋能化工行业工艺流程模拟与优化。
议题三:面向Ascend 950的SIMT/SIMD编程实践
聚焦昇腾950的SIMD+SIMT架构,基于Ascend C介绍SIMT编程以及SIMD+SIMT混合的编程方法,帮助开发者充分理解昇腾950的架构,充分释放芯片算力。
议题四:Ascend 950 HiF8模型量化技术的训推实践
深度解析昇腾950的自研数据格式HiFloat8、训练领域、分析其利用 Delay-Scaling 机制对齐 BF16 的收敛能力;推理领域,展示其整网近无损量化技术。深入解析 Decode阶段 FlashAttention 算子在采用 HiFloat8 后的性能跃迁。全方位呈现 HiFloat8 如何在保证模型精度的同时,释放硬件算力。
议题五:面向Ascend 950的8bit量化矩阵乘性能建模与优化方法
聚焦8bit量化矩阵乘的性能建模,重点探讨昇腾NPU硬件上的高效实现方案。通过分析计算与搬运时间识别性能瓶颈,并提出了针对性优化策略,包括利用指令硬件融合特性自动完成Scale乘法以提升性能10-15%、采用SWAT(滑动窗口模板)技术将L2缓存命中率提升至80+%。议题结合理论建模与实操经验,系统性地提供了低比特量化计算在NPU硬件上的优化方法论,适用于LLM训推部署等场景。
议题六:NPU模型优化Agent Skill
本次分享将聚焦昇腾NPU大模型推理优化场景,介绍一套基于CANN原子化优化能力与cann-recipes-infer开源仓经验沉淀的Agent Skills。该体系将并行切分改造、KVCache优化、融合算子适配、图模式适配及验证调试组织为阶段化工作流,帮助Agent按顺序推进复杂模型优化任务。在端到端测试案例中,这套Skill不仅提升了中间阶段选型质量与调试效率,也显著提高了完整优化链路的走通率。议题将进一步分享其架构设计、使用方式与未来演进方向,为昇腾 NPU 推理优化开发者提供可复用的参考路径与效率工具。
议题七:HCCL北极星平台助力Ascend 950集合通信算法高效开发
聚焦自定义算法开发周期长、集群环境依赖重的痛点,介绍基于北极星平台的创新解法。议题将深入剖析如何利用“指令截断”技术实现算法语义的精准分析,以及内存校验原理如何保障算法正确性,并辅以真实案例展示免集群环境下的全流程开发闭环。旨在帮助开发者摆脱集群搭建束缚,实现自定义通信算法的敏捷开发与快速验证,高效释放Ascend 950的通信潜能。
议题八:具身智能VLA模型在昇腾平台的适配优化关键技术实践
本次分享将聚焦 Pi0 机器人 VLA 具身大模型在昇腾 A2 平台的全流程适配与性能优化,通过使能CANN 原生融合算子、图模式、计算逻辑优化等关键方法,将单卡推理时延压至80ms,实现实时控制级的飞跃。同时深度解读cann-recipes中embodied-intelligence等开源仓库,提供可直接复用的模型训推迁移、算子优化、部署上线标准化方案,助力开发者快速落地机器人控制、具身智能等场景,共建CANN 开源开放高效开发生态。
<参会有礼>
本次沙龙免费开放报名,成功报名即可加入 CANN 官方开发者交流社群;到场开发者可领取定制伴手礼,先到先得。更有茶歇和互动抽奖,华为耳机、定制保温杯等惊喜好礼等你来拿!
报名链接:https://snic.gtsdata.huawei.com/datalinkpro/mobile/#/openFormFill?hashcode=qisSNuQW3fBeIIOLsPqvAIsDEsqmbPMh5A/ztytAI7M=