国产万卡训练！推理性能突破！摩尔线程新架构“花港”与路线图重磅亮相-编程阁

12月20日，摩尔线程首届MUSA开发者大会（简称：MDC 2025）在北京中关村国际创新中心开幕。作为国内首个聚焦全功能GPU的开发者技术盛会，大会系统展示了摩尔线程以自主MUSA统一架构为核心的全栈技术成果，全面展现公司在高端全功能GPU领域的关键突破与前瞻布局。

本次发布的核心成果包括：

1、新架构“花港”亮相：全功能GPU架构“花港”，支持FP4到FP64的全精度计算，算力密度提升50%，效能提升10倍。未来并将基于该架构推出高性能AI训推一体“华山”芯片与专攻高性能图形渲染的“庐山”芯片。

2、“夸娥万卡”高效训练：发布夸娥万卡智算集群，展示了其支撑万亿参数模型训练的工程化能力与可靠性，在多项关键精度指标上达到国际主流水平。

3、推理性能实现跨越：摩尔线程联合硅基流动，在DeepSeek R1 671B全量模型上实现性能突破，MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s，树立国产推理性能新标杆。

4、超节点架构前瞻：分享面向下一代超大规模智算中心的MTT C256超节点架构，着眼高密硬件架构，实现极致智算性能。

5、全新个人智算平台：正式发布搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK，赋能“摩尔学院”20万开发者与学习者。

6、图形进化与前沿探索：揭晓硬件级光线追踪加速与自研AI生成式渲染技术，具身智能、科学智能（AI4S）、AI for 6G等前沿领域的深度布局，进一步印证了全功能GPU技术路线的广度与面向未来的可扩展性。

这一系列成果的发布，标志着摩尔线程已成功构建起一套以自主统一架构为根基、贯穿“芯-边-端-云”的完整技术栈，实现了从底层硬件到上层应用的系统化闭环。该体系为国产智能计算生态的持续演进与产业融合，提供了坚实、开放且可持续的平台级支撑。

战略基石：MUSA统一架构的进化与开放

MUSA（Meta-computing Unified System Architecture）是摩尔线程自主研发的元计算统一计算架构，覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。

MUSA不仅完整定义了从芯片设计到软件生态的统一技术标准，更代表了公司坚持底层创新、践行长期主义的战略核心，并为全功能GPU奠定了坚实的技术根基，可高效支持AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码等全场景高性能计算。

历经五年深度研发与持续迭代，MUSA实现了软件性能的指数级跨越。全新升级的MUSA 5.0标志着架构步入成熟新阶段，在全栈统一性、极致效能与生态开放性上取得关键突破。

编程生态全面升级：原生MUSA C，深度兼容 TileLang、Triton 等编程语言，为开发者提供灵活高效的全栈开发体验。
计算效能极致优化：核心计算库muDNN实现GEMM/FlashAttention效率超98%，通信效率达97%，编译器性能提升3倍，并集成高性能算子库，显著加速训练与推理全流程。
开源生态持续扩大：计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件，向开发者社区开放深度优化的底层能力。
前沿特性拓展边界：即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q，以及计算光刻库muLitho，持续拓展全功能GPU的算力边界。

硬件核心：“花港”新架构与技术路线图

基于MUSA统一体系，摩尔线程揭晓新一代全功能GPU架构“花港”，该架构在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破，其核心特性包括：

计算性能显著提升：基于新一代指令集，算力密度提升50%，能效大幅优化；支持从FP4到FP64的全精度端到端计算，新增MTFP6/MTFP4及混合低精度支持。
异步编程与超大规模互联：集成新一代异步编程模型，优化任务调度与并行机制；通过自研MTLink高速互联技术，支持十万卡以上规模智算集群扩展。
图形与AI深度融合：内置AI生成式渲染架构，增强硬件光线追踪加速引擎，完整支持DirectX 12 Ultimate，实现图形渲染与智能计算的高度协同。
全栈自研与安全可信：架构基于全栈自主研发，拥有扎实的专利壁垒（截至2025年6月30日，公司累计授权专利514项，其中发明专利468项），具备全栈自研与自主可控的核心能力。通过四层硬件安全架构，提供从芯片到系统的可验证安全守护。

基于“花港”架构，摩尔线程公布了未来将发布的两款芯片技术路线：

“华山”专注AI训推一体与超大规模智能计算。集成新一代异步编程与全精度张量计算单元，支持从FP4至FP64的全精度计算，为万卡级智算集群提供稳定高效的算力支撑，是构建下一代“AI工厂”的坚实底座。
“庐山”专攻高性能图形渲染。其图形性能实现全面跨越：AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍，并显著增强纹理填充、原子访存能力及显存容量。集成AI生成式渲染、UniTE统一渲染架构及全新硬件光追引擎，为3A游戏、高端图形创作提供强大算力支持。

基础设施：夸娥万卡集群，树立国产智算效率标杆

本次大会正式发布了夸娥万卡智算集群。该集群具备全精度、全功能通用计算能力，在万卡规模下实现高效稳定的AI训练与推理。其核心突破包括：浮点运算能力达到10Exa-Flops，训练算力利用率（MFU）在Dense大模型上达60%，MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95%，与国际主流生态高度兼容，并在多项指标上具备显著能效优势。

在训练侧，基于原生FP8能力完整复现顶尖大模型训练流程，并在多项关键精度指标上达到国际主流水平。技术层面实现关键优化：Flash Attention算力利用率超95%，并突破FP8累加精度等关键技术瓶颈，充分释放国产GPU在大模型训练中的性能潜力。
在推理侧，摩尔线程联合硅基流动，经过系统级工程优化与FP8精度加速，在DeepSeek R1 671B全量模型上实现性能突破：MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s，树立国产推理性能新标杆。
面向未来，发布了MTT C256超节点的架构规划。该产品采用计算与交换一体化的高密设计，旨在系统性提升万卡集群的训练效能与推理能力，为下一代超大规模智算中心构建兼具超高密度与极致能效的硬件基石。

迈向物理AI：图形技术持续进化，前瞻布局未来计算

在图形计算领域，摩尔线程持续推动国产GPU向兼容性更广、技术更深的方向发展。其产品已全面支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流图形与计算API，并与国产主流CPU及操作系统完成了全栈适配，持续扩展游戏及专业应用的兼容覆盖。公司同时宣布，即将完整支持DirectX 12 Ultimate，进一步接轨行业顶级图形标准。

在核心渲染技术上，摩尔线程率先拥抱“图形+AI”范式革命，实现两项关键突破：

迈入实时光追时代：基于“花港”架构的硬件光线追踪加速引擎，可实现对DirectX Raytracing (DXR)的支持，使实时、逼真的光影效果在国产GPU上成为可能。
定义AI生成式渲染（AGR）：推出全自研MTAGR 1.0技术，推动渲染技术范式从“计算”走向“生成”，为下一代数字内容创作及数字孪生等场景构建国产技术基座。

面向更广阔的未来计算场景，摩尔线程已展开前瞻性布局：

具身智能全栈赋能：发布了MT Lambda具身智能仿真训练平台，深度融合物理、渲染与AI三大引擎，构建了开发、仿真、训练的高效统一环境。推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案，并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA，以开放协作助力机器人产业研发效率提升。
前沿融合计算探索：MUSA生态已与合作伙伴在科学智能（AI for Science）、量子科技、AI for 6G等前沿交叉领域展开探索工作，持续拓展全功能GPU作为通用算力底座的技术边界与应用价值。

生态加速：全面赋能开发者，发布个人AI算力平台

生态建设是GPU行业的核心壁垒与价值所在，摩尔线程构建了从硬件工具、算力支撑到人才培养的赋能体系。

深化人才培养，建设MUSA生态枢纽：以摩尔学院为平台，摩尔线程已构建起产教融合的开发者成长体系，该平台汇聚近20万名开发者与学习者，并通过“国产计算生态与AI教育共建行动”将前沿技术与产业实践带入全国 200多所高校，吸引超10万名学子参与。本次大会宣布建设MUSA生态中心，同时发布MUSA开发者计划，旨在为从AI学习探索到科研创新的各阶段创新者，提供算力支持与技术赋能。
发布AI算力本，提供“开箱即用”的开发体验：作为连接开发者与MUSA生态的核心入口，MTT AIBOOK搭载自研“长江”智能SoC，提供高达50TOPS的端侧AI算力，首次实现从芯片、驱动到开发环境的全栈整合，不仅实现了专业AI开发的“开箱即用”，更创新地打破Linux开发、Windows办公与Android应用之间场景壁垒，将强大的AI能力转化为人人可及的生产力，赋能开发者在AI时代成为“超级个体”。

大会同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube，进一步丰富端侧计算产品形态。