【参会有礼】CANN Meetup报名倒计时！干货剧透-编程阁

CANN Meetup本周六在北京举办，干货抢先看。

议题一：中石油基于昇腾算子适配的研究与应用

中石油国产算力适配取得突破性进展，实现科学计算、时序模型、多模态、CV等近20个模型在多领域全面落地应用，深度赋能科研创新及生产运营核心业务。通过持续攻坚显存优化、算子开发、精度对齐等技术难题，积累了扎实的工程化实践经验，为能源行业算力自主创新树立了标杆。

议题二：AI赋能化工工艺流程模拟与仿真

构建化工工艺流程模拟优化智能体，通过自然语言描述模拟任务，智能体可自主完成流程模拟软件的配置生成、模拟引擎运行、收敛计算到结果分析的全流程，无需手动操作Aspen Plus等具体模拟软件，并实时沉淀化工模拟专家的知识和经验，让模拟任务从“人驱动工具”变为“AI 自主驱动工艺模拟软件并学习进化”，端到端赋能化工行业工艺流程模拟与优化。

议题三：面向Ascend 950的SIMT/SIMD编程实践

聚焦昇腾950的SIMD+SIMT架构，基于Ascend C介绍SIMT编程以及SIMD+SIMT混合的编程方法，帮助开发者充分理解昇腾950的架构，充分释放芯片算力。

议题四：Ascend 950 HiF8模型量化技术的训推实践

深度解析昇腾950的自研数据格式HiFloat8、训练领域、分析其利用 Delay-Scaling 机制对齐 BF16 的收敛能力；推理领域，展示其整网近无损量化技术。深入解析 Decode阶段 FlashAttention 算子在采用 HiFloat8 后的性能跃迁。全方位呈现 HiFloat8 如何在保证模型精度的同时，释放硬件算力。

议题五：面向Ascend 950的8bit量化矩阵乘性能建模与优化方法

聚焦8bit量化矩阵乘的性能建模，重点探讨昇腾NPU硬件上的高效实现方案。通过分析计算与搬运时间识别性能瓶颈，并提出了针对性优化策略，包括利用指令硬件融合特性自动完成Scale乘法以提升性能10-15%、采用SWAT（滑动窗口模板）技术将L2缓存命中率提升至80+%。议题结合理论建模与实操经验，系统性地提供了低比特量化计算在NPU硬件上的优化方法论，适用于LLM训推部署等场景。

议题六：NPU模型优化Agent Skill

本次分享将聚焦昇腾NPU大模型推理优化场景，介绍一套基于CANN原子化优化能力与cann-recipes-infer开源仓经验沉淀的Agent Skills。该体系将并行切分改造、KVCache优化、融合算子适配、图模式适配及验证调试组织为阶段化工作流，帮助Agent按顺序推进复杂模型优化任务。在端到端测试案例中，这套Skill不仅提升了中间阶段选型质量与调试效率，也显著提高了完整优化链路的走通率。议题将进一步分享其架构设计、使用方式与未来演进方向，为昇腾 NPU 推理优化开发者提供可复用的参考路径与效率工具。

议题七：HCCL北极星平台助力Ascend 950集合通信算法高效开发

聚焦自定义算法开发周期长、集群环境依赖重的痛点，介绍基于北极星平台的创新解法。议题将深入剖析如何利用“指令截断”技术实现算法语义的精准分析，以及内存校验原理如何保障算法正确性，并辅以真实案例展示免集群环境下的全流程开发闭环。旨在帮助开发者摆脱集群搭建束缚，实现自定义通信算法的敏捷开发与快速验证，高效释放Ascend 950的通信潜能。

议题八：具身智能VLA模型在昇腾平台的适配优化关键技术实践

本次分享将聚焦 Pi0 机器人 VLA 具身大模型在昇腾 A2 平台的全流程适配与性能优化，通过使能CANN 原生融合算子、图模式、计算逻辑优化等关键方法，将单卡推理时延压至80ms，实现实时控制级的飞跃。同时深度解读cann-recipes中embodied-intelligence等开源仓库，提供可直接复用的模型训推迁移、算子优化、部署上线标准化方案，助力开发者快速落地机器人控制、具身智能等场景，共建CANN 开源开放高效开发生态。

<参会有礼>

本次沙龙免费开放报名，成功报名即可加入 CANN 官方开发者交流社群；到场开发者可领取定制伴手礼，先到先得。更有茶歇和互动抽奖，华为耳机、定制保温杯等惊喜好礼等你来拿！

报名链接：https://snic.gtsdata.huawei.com/datalinkpro/mobile/#/openFormFill?hashcode=qisSNuQW3fBeIIOLsPqvAIsDEsqmbPMh5A/ztytAI7M=

FoundationPose实战：从零部署到Demo运行全记录

1. 环境准备：从零搭建Ubuntu开发环境第一次接触FoundationPose时，我花了两天时间才把环境完全配好。这里分享下我的完整配置过程，帮你避开那些坑人的依赖问题。我的设备是RTX 4080显卡配Ubuntu 22.04系统，这个组合实测兼容性最好…

李华

基于自抗扰改进电流环实现双馈风机低压穿越：文献对比与实现细节探索

双馈风机通过自抗扰进行低压穿越改进自抗扰加在电流环根据硕士大论文复现有参考文献与pi进行对比，实现了网侧电压降42%以内的低压穿越双馈风机的低压穿越能力直接关系到电网稳定性。传统PI控制在电压骤降超过30%时容易出现电流振荡，就像新手司机遇到…

李华

高杂合度基因组组装优化：purge_dups 参数调优与 Hi-C 辅助策略对比

1. 高杂合度基因组组装的挑战与重复片段过滤基因组组装是生物信息学中最基础也最具挑战性的工作之一。对于高杂合度物种来说，这个问题尤为棘手。想象一下，你手里有两套非常相似的拼图（代表两个单倍型），但每块拼图的图…

李华

Pixel Aurora Engine效果展示：像素化动态天气系统（雨/雪/雷电）生成

Pixel Aurora Engine效果展示：像素化动态天气系统（雨/雪/雷电）生成 1. 像素极光引擎概览 Pixel Aurora Engine是一款专为像素艺术创作设计的AI绘图工作站。它采用复古8-bit游戏风格界面，却能生成令人惊叹的像素艺术作品。这款引…

李华

Tape在Android应用中的5个实际用例：从日志记录到任务调度

Tape在Android应用中的5个实际用例：从日志记录到任务调度【免费下载链接】tape A lightning fast, transactional, file-based FIFO for Android and Java. 项目地址: https://gitcode.com/gh_mirrors/tape1/tape Tape是一个闪电般快速、支持事务的文件型FI…

李华