Oracle 通过推出 **OCI Zettascale10 超级集群** 和 **Oracle Acceleron RoCE 网络架构**，正在重新定义前沿 AI 的性能边界-编程阁

Oracle 通过推出OCI Zettascale10 超级集群和Oracle Acceleron RoCE 网络架构，正在重新定义前沿 AI 的性能边界。这一全新超级集群基于 Oracle Cloud Infrastructure（OCI）构建，整合多达 800,000 颗 NVIDIA GPU，提供高达16 ZFLOPS的AI算力，相当于每秒进行 16 万亿亿次浮点运算，专为训练超大规模生成式 AI 模型而设计。

Zettascale10 部署在美国德克萨斯州阿比林的千兆瓦级数据中心园区内，跨多个高密度数据中心运行，并通过高容量光纤互连，形成一个逻辑统一的超级计算平台。其核心创新之一是采用Oracle Acceleron RoCE（RDMA over Converged Ethernet）技术，将 RDMA 的低延迟优势引入以太网环境，突破传统 InfiniBand 对专用硬件的依赖，实现更灵活、可扩展且成本更低的大规模 GPU 互联。

Acceleron 利用定制化以太网 NIC 和四端口交换机结构，构建扁平化多平面网络拓扑，显著降低通信延迟，提升 GPU 利用率。这种架构不仅带来更高的数据吞吐和更低的延迟，还增强了系统的弹性与容错能力——即使某个网络平面中断，其他平面仍可维持通信。更重要的是，Acceleron 支持在 NIC 层面实现线速加密、零信任安全策略（ZPR）以及对对象存储访问的细粒度控制，从根源上防范数据泄露，提升整体安全性。

与此同时，Oracle 推出Multicloud Universal Credits计划，允许客户使用统一储值额度购买跨云服务，包括 Oracle Database@AWS、@Azure、@Google Cloud 及各类 OCI 服务。该计划覆盖 37 个多云区域，提供一致的许可条款、计费方式和治理体验，极大简化了企业在多云环境中部署关键数据库和 AI 工作负载的复杂性。

OCI 执行副总裁 Mahesh Thiagarajan 强调，Zettascale10 让客户能以更低能耗、更高可靠性完成大模型训练与推理；CEO Clay Magouyrk 则指出，Acceleron 是未来所有 I/O 加速与安全功能的基础，使性能、安全与易用性不再相互妥协。

综上所述，Oracle 正通过“超级算力 + 智能网络 + 统一许可”三位一体的战略，为企业级 AI 树立新的性能与灵活性标准。

OCI Zettascale10 超级集群实现16 ZFLOPS（每秒 16 十万亿亿次浮点运算）算力的关键在于其前所未有的规模集成、先进的网络互连架构以及面向 AI 工作负载优化的整体设计。

如何实现 16 ZFLOPS 的算力？

超大规模 GPU 集成：
Zettascale10 整合了多达800,000 颗 NVIDIA GPU，这些 GPU 构成了整个系统的核心计算单元。以当前最先进的 AI GPU（如 NVIDIA H100 或 B100 级别）单颗峰值性能约在 20-30 TFLOPS（稀疏或 FP8/FP4 模式下更高）估算，在高度并行和优化调度的环境下，百万级 GPU 的聚合算力可轻松突破 ZFLOPS 量级。通过集群统一调度，这些 GPU 可协同执行大规模模型训练任务，从而达到16 ZFLOPS 的有效AI算力输出。
专用 AI 加速硬件与软件栈协同优化：
OCI 对底层固件、驱动程序、通信库（如 NCCL）、容器运行时和 Kubernetes 编排器进行了深度调优，确保 GPU 利用率最大化。同时支持最新的张量核心指令集和低精度计算格式（如 FP8、BF16），进一步提升单位能耗下的算力密度。
多千兆瓦级电力与冷却基础设施：
支撑如此庞大的算力需要强大的能源供给。Zettascale10 部署于德克萨斯州阿比林的一个大型数据中心园区，具备多千兆瓦供电能力和高效液冷散热系统，保障长时间高负载运行。

与传统超级计算机相比的架构优势

维度	传统超算	OCI Zettascale10
互联技术	多采用 InfiniBand，性能高但依赖专有硬件，扩展成本高	结合Oracle Acceleron RoCE技术，基于以太网实现 RDMA，降低成本的同时保持超低延迟
网络拓扑	树状或胖树结构，存在瓶颈节点	扁平化多平面网络架构，减少跳数，降低延迟，提升容错性
弹性与可用性	单一故障影响大，维护需停机	多网络平面冗余设计，一个平面维护不影响整体通信，支持在线升级
安全性	安全策略集中于防火墙或主机层	内建NIC 级零信任安全（ZPR）和线速加密，实现微隔离和细粒度访问控制
部署灵活性	通常为封闭系统，难以动态调整资源	基于云原生架构，支持弹性伸缩、按需分配，适合多租户和企业级 AI 应用
跨云集成能力	孤立部署，难与其他云平台协同	支持Multicloud Universal Credits，可在 AWS/Azure/Google Cloud 等环境统一使用 Oracle 服务

此外，Zettascale10 并非单一物理机器，而是跨越多个地理上相邻但逻辑统一的数据中心，通过高带宽光纤互联构成“逻辑超级计算机”，具备更强的可扩展性和灾难恢复能力。

更重要的是，它不仅仅是“更快”的超算，更是“更智能”、“更安全”、“更易用”的 AI 性能平台。例如：

性能可预测性：由于减少了交换机跳数和拥塞点，GPU 间通信延迟更加稳定。
效率提升：Acceleron 的扁平网络让数据传输不阻塞，避免 GPU “空转等待”。
绿色计算：更高的单位能耗算力比，符合可持续发展趋势。

综上所述，OCI Zettascale10 不仅依靠数量级的 GPU 实现 16 ZFLOPS 的惊人算力，更通过Oracle Acceleron RoCE 网络架构和云原生设计理念，在扩展性、安全性、灵活性和运维效率上全面超越传统超算，成为专为下一代生成式 AI 打造的终极算力引擎。

Oracle 通过推出 OCI Zettascale10 超级集群和 Oracle Acceleron RoCE 网络架构，正在重新定义前沿 AI 的性能边界

如何实现 16 ZFLOPS 的算力？

与传统超级计算机相比的架构优势

基于STM32的无人小车自主避障系统设计

【容器性能瓶颈突破】：基于container stats的3种内存泄漏检测与优化策略

Cursor AI编程助手功能解锁与配置优化指南

Oracle 19c入门学习教程，从入门到精通， Oracle 表空间与数据文件管理详解(9）

告别实习报告“挠头时刻”！百考通5分钟生成专业、高分实践报告

VibeThinker-1.5B部署避坑指南：系统提示词必填项详解