news 2026/4/16 14:06:29

Oracle 通过推出 **OCI Zettascale10 超级集群** 和 **Oracle Acceleron RoCE 网络架构**,正在重新定义前沿 AI 的性能边界

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Oracle 通过推出 **OCI Zettascale10 超级集群** 和 **Oracle Acceleron RoCE 网络架构**,正在重新定义前沿 AI 的性能边界

Oracle 通过推出OCI Zettascale10 超级集群Oracle Acceleron RoCE 网络架构,正在重新定义前沿 AI 的性能边界。这一全新超级集群基于 Oracle Cloud Infrastructure(OCI)构建,整合多达 800,000 颗 NVIDIA GPU,提供高达16 ZFLOPS的AI算力,相当于每秒进行 16 万亿亿次浮点运算,专为训练超大规模生成式 AI 模型而设计。

Zettascale10 部署在美国德克萨斯州阿比林的千兆瓦级数据中心园区内,跨多个高密度数据中心运行,并通过高容量光纤互连,形成一个逻辑统一的超级计算平台。其核心创新之一是采用Oracle Acceleron RoCE(RDMA over Converged Ethernet)技术,将 RDMA 的低延迟优势引入以太网环境,突破传统 InfiniBand 对专用硬件的依赖,实现更灵活、可扩展且成本更低的大规模 GPU 互联。

Acceleron 利用定制化以太网 NIC 和四端口交换机结构,构建扁平化多平面网络拓扑,显著降低通信延迟,提升 GPU 利用率。这种架构不仅带来更高的数据吞吐和更低的延迟,还增强了系统的弹性与容错能力——即使某个网络平面中断,其他平面仍可维持通信。更重要的是,Acceleron 支持在 NIC 层面实现线速加密、零信任安全策略(ZPR)以及对对象存储访问的细粒度控制,从根源上防范数据泄露,提升整体安全性。

与此同时,Oracle 推出Multicloud Universal Credits计划,允许客户使用统一储值额度购买跨云服务,包括 Oracle Database@AWS、@Azure、@Google Cloud 及各类 OCI 服务。该计划覆盖 37 个多云区域,提供一致的许可条款、计费方式和治理体验,极大简化了企业在多云环境中部署关键数据库和 AI 工作负载的复杂性。

OCI 执行副总裁 Mahesh Thiagarajan 强调,Zettascale10 让客户能以更低能耗、更高可靠性完成大模型训练与推理;CEO Clay Magouyrk 则指出,Acceleron 是未来所有 I/O 加速与安全功能的基础,使性能、安全与易用性不再相互妥协。

综上所述,Oracle 正通过“超级算力 + 智能网络 + 统一许可”三位一体的战略,为企业级 AI 树立新的性能与灵活性标准。

OCI Zettascale10 超级集群实现16 ZFLOPS(每秒 16 十万亿亿次浮点运算)算力的关键在于其前所未有的规模集成、先进的网络互连架构以及面向 AI 工作负载优化的整体设计。

如何实现 16 ZFLOPS 的算力?

  1. 超大规模 GPU 集成
    Zettascale10 整合了多达800,000 颗 NVIDIA GPU,这些 GPU 构成了整个系统的核心计算单元。以当前最先进的 AI GPU(如 NVIDIA H100 或 B100 级别)单颗峰值性能约在 20-30 TFLOPS(稀疏或 FP8/FP4 模式下更高)估算,在高度并行和优化调度的环境下,百万级 GPU 的聚合算力可轻松突破 ZFLOPS 量级。通过集群统一调度,这些 GPU 可协同执行大规模模型训练任务,从而达到16 ZFLOPS 的有效AI算力输出

  2. 专用 AI 加速硬件与软件栈协同优化
    OCI 对底层固件、驱动程序、通信库(如 NCCL)、容器运行时和 Kubernetes 编排器进行了深度调优,确保 GPU 利用率最大化。同时支持最新的张量核心指令集和低精度计算格式(如 FP8、BF16),进一步提升单位能耗下的算力密度。

  3. 多千兆瓦级电力与冷却基础设施
    支撑如此庞大的算力需要强大的能源供给。Zettascale10 部署于德克萨斯州阿比林的一个大型数据中心园区,具备多千兆瓦供电能力和高效液冷散热系统,保障长时间高负载运行。


与传统超级计算机相比的架构优势

维度传统超算OCI Zettascale10
互联技术多采用 InfiniBand,性能高但依赖专有硬件,扩展成本高结合Oracle Acceleron RoCE技术,基于以太网实现 RDMA,降低成本的同时保持超低延迟
网络拓扑树状或胖树结构,存在瓶颈节点扁平化多平面网络架构,减少跳数,降低延迟,提升容错性
弹性与可用性单一故障影响大,维护需停机多网络平面冗余设计,一个平面维护不影响整体通信,支持在线升级
安全性安全策略集中于防火墙或主机层内建NIC 级零信任安全(ZPR)和线速加密,实现微隔离和细粒度访问控制
部署灵活性通常为封闭系统,难以动态调整资源基于云原生架构,支持弹性伸缩、按需分配,适合多租户和企业级 AI 应用
跨云集成能力孤立部署,难与其他云平台协同支持Multicloud Universal Credits,可在 AWS/Azure/Google Cloud 等环境统一使用 Oracle 服务

此外,Zettascale10 并非单一物理机器,而是跨越多个地理上相邻但逻辑统一的数据中心,通过高带宽光纤互联构成“逻辑超级计算机”,具备更强的可扩展性和灾难恢复能力。

更重要的是,它不仅仅是“更快”的超算,更是“更智能”、“更安全”、“更易用”的 AI 性能平台。例如:

  • 性能可预测性:由于减少了交换机跳数和拥塞点,GPU 间通信延迟更加稳定。
  • 效率提升:Acceleron 的扁平网络让数据传输不阻塞,避免 GPU “空转等待”。
  • 绿色计算:更高的单位能耗算力比,符合可持续发展趋势。

综上所述,OCI Zettascale10 不仅依靠数量级的 GPU 实现 16 ZFLOPS 的惊人算力,更通过Oracle Acceleron RoCE 网络架构云原生设计理念,在扩展性、安全性、灵活性和运维效率上全面超越传统超算,成为专为下一代生成式 AI 打造的终极算力引擎。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:20:50

基于STM32的无人小车自主避障系统设计

目录STM32无人小车自主避障系统概述系统硬件组成软件设计关键点系统优化方向典型应用场景源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!STM32无人小车自主避障系统概述 基于STM32的无人小车自主避障系统是一种嵌入式智能控制系统&…

作者头像 李华
网站建设 2026/4/16 12:27:24

【容器性能瓶颈突破】:基于container stats的3种内存泄漏检测与优化策略

第一章:容器内存监控的核心价值与挑战在现代云原生架构中,容器化应用已成为主流部署方式。随着微服务数量的激增,准确掌握每个容器的内存使用情况,成为保障系统稳定性与资源利用率的关键环节。内存监控不仅帮助识别潜在的内存泄漏…

作者头像 李华
网站建设 2026/4/16 13:56:33

Cursor AI编程助手功能解锁与配置优化指南

Cursor AI编程助手功能解锁与配置优化指南 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your trial request limit. / To…

作者头像 李华
网站建设 2026/4/13 10:40:19

告别实习报告“挠头时刻”!百考通5分钟生成专业、高分实践报告

对于每一位即将或正在经历实习的大学生而言,一份详实、规范、逻辑清晰的实践报告,不仅是对实习经历的总结与沉淀,更是学业考核的重要组成部分。然而,面对如何将零散的工作内容、琐碎的日常任务,梳理成一篇结构严谨、内…

作者头像 李华
网站建设 2026/4/16 12:57:48

VibeThinker-1.5B部署避坑指南:系统提示词必填项详解

VibeThinker-1.5B部署避坑指南:系统提示词必填项详解 VibeThinker-1.5B-WEBUI 微博开源,低成本小参数模型 VibeThinker-1.5B-APP 镜像/应用大全,欢迎访问 微博开源的小参数模型,支持数学和编程任务。 特别提示 建议使用此模型…

作者头像 李华