走进现代化厨房,厨师直接在工作台上处理食材,智能感应系统实时监控烹饪过程,与传统厨房里厨师需要不断往返冰箱取食材的场景形成鲜明对比。这正是数据中心正在经历的变革。
清晨六点,某大型电商的服务器集群突然迎来一波流量高峰,成千上万的用户同时涌向秒杀活动页面。
传统数据中心架构下,CPU需要从远处的内存中获取数据,然后进行计算,再通过网络发送出去——这个过程就像厨师需要从远处的冰箱取食材,回到灶台烹饪,再送到餐厅另一端。
但今天,我们有了不同的选择。2023年,Intel发布的第四代Xeon可扩展处理器中首次集成了CXL 1.1标准支持,AMD的MI300加速卡则将内存容量推向了新高,而各种存算一体芯片的实验室数据更是突破了传统架构百倍的能效比。
01 旧框架的困境:为何传统数据中心力不从心
数据中心的心脏——CPU,与存储数据的记忆体——内存,被安置在主板的不同位置,它们之间的通信需要通过总线,而物理距离意味着延迟,这就是著名的“内存墙”。
在这个背景下,一个AI训练任务可能需要从硬盘加载数百GB的模型参数到内存,然后CPU或GPU进行计算,这中间涉及多次数据搬运,每次搬运都在消耗时间和能源。
据行业报告显示,在现代AI负载中,数据搬运消耗的能量已占总能耗的60%以上,而真正用于计算的能量不足40%。这就是著名的“冯·诺依曼瓶颈”:计算单元和存储单元分离导致效率低下。
随着摩尔定律逐渐失效,单纯依靠制程进步已无法满足算力需求。新兴硬件