news 2026/4/16 13:01:33

火山引擎 Force 大会发布 veRoCE 传输协议!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
火山引擎 Force 大会发布 veRoCE 传输协议!

在12月18日的火山Force大会上,字节跳动正式发布veRoCE——字节跳动自研的高性能RDMA传输协议!

随着大语言模型(LLM, Large Language Model)的规模指数级扩张,构建万卡甚至更大规模的GPU集群已成为支撑大模型训练的刚需。这类大规模集群的节点间通信高度依赖RDMA网络,但传统RoCEv2在组网规模、带宽、时延上已经无法满足需求。同时,在云网络的发展下,通用计算、存储等业务也对RDMA组网提出了更高的要求。主流的RoCEv2高速网络存在两大关键局限——依赖PFC无损网络,而大规模组网中PFC极易引发网络稳定性问题,制约集群规模扩展;且不支持多路径传输,易导致ECMP冲突进而造成带宽浪费。

在此背景下,字节跳动推出自研高性能传输协议veRoCE,从源头解决RoCEv2的遗留问题,为大规模GPU集群通信提供更优解。

veRoCE针对RoCEv2的关键不足进行了创新:

  • 多路径与乱序优化:原生支持多路径传输(修改源端熵值、交换机报文喷洒两种模式);针对多路径导致的报文乱序,通过DDP (Direct Data Placement) 让数据无需等待保序即可直接交付应用,大幅减少网卡缓存开销。在veRoCE中,报文乱序接收和DDP对所有语义(RDMA Write, RDMA Read, Send/Recv, Atomics等)提供原生支持。

  • 高效重传机制:采用基于选择性确认(SACK)的选择性重传策略,通过接收端位图精确确定丢包位置,支持单个报文的多次选择性重传;引入延迟选择性确认(lazy SACK)机制,根据报文乱序程度智能区分乱序报文和丢包报文,确保SACK在多路径场景下高效运行。

  • 多路径拥塞控制:支持路径粒度和连接粒度两种拥塞控制模式,将拥塞信号与可靠传输完全解耦,避免数据传输干扰拥塞感知的准确性。针对路径拥塞不均衡问题,veRoCE提出了基于报文序列号的快速慢路径检测算法,以最小的开销快速定位并剔除慢路径。

veRoCE注重兼容性和易用性,支持通用的verbs接口,消息语义与保序模型和RoCEv2一致,业务可以无缝切换。veRoCE的连接管理支持协议协商,与RoCEv2网卡互通时可自动回退到RoCEv2模式。该协议在与核心新功能无关的部分与RoCEv2保持完全一致,大大降低了迁移和部署的门槛。

在典型测试场景中,veRoCE为大模型训练带来显著收益:LLM训练速度相较于RoCEv2提升约11.2%;AlltoAll通信吞吐提升约48.4%;在2%丢包率下,veRoCE的有效吞吐仍能达到网卡带宽的约95.7%左右,而RoCEv2在这一场景下因为丢包过多而通信中断。 字节正在与Nvidia、AMD、Broadcom、云脉芯联、比特智路等厂商就veRoCE进行合作。veRoCE已在部分网卡上完成验证与小规模试用,更多400G、800G以及1.6T网卡正在逐步支持veRoCE。我们欢迎更多设备厂商与云厂商的参与,共同完善以太网高性能传输生态。

【下载链接】 https://developer.volcengine.com/resource/7584346532149723178

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:25:38

Force 开发者日:火山引擎 Agent 开发者生态全面升级

当前,由 Agentic AI 驱动的范式革新,正在系统性地重塑 AI 技术架构的基石、产业形态格局乃至人与技术交互的本质。然而,开发者在构建稳定可用的 AI Agent 时仍面临高成本、技术复杂、落地难等诸多困难。全新的软件纪元正在开启,要…

作者头像 李华
网站建设 2026/4/15 11:31:37

Langchain-Chatchat SQL注入防御知识库开发

Langchain-Chatchat SQL注入防御知识库开发 在企业安全实践中,一个常见的困境是:明明有详尽的安全编码规范和渗透测试报告,但开发人员遇到具体问题时仍不知所措。比如一位Java工程师正在写JDBC代码,突然想到“用字符串拼接SQL到底…

作者头像 李华
网站建设 2026/4/16 0:54:38

Open Notebook:打造私有化AI助手,16种模型本地部署教程

本文介绍了Google的NotebookLM及其开源替代品Open Notebook。该工具支持16种AI模型,可在本地部署,保障数据隐私,支持多种格式导入,具备灵活权限控制和多角色语音功能。文章提供详细Docker部署方法,对比两个工具的优缺点…

作者头像 李华
网站建设 2026/4/16 12:17:10

Langchain-Chatchat SIEM系统操作知识查询平台

Langchain-Chatchat SIEM系统操作知识查询平台 在现代企业网络安全运营中,SIEM(安全信息与事件管理)系统每天处理数以百万计的日志条目。当某台核心服务器突然出现异常登录行为时,安全工程师必须在最短时间内定位问题、判断是否为…

作者头像 李华
网站建设 2026/4/16 0:50:48

Langchain-Chatchat社会工程学防范知识查询平台

Langchain-Chatchat社会工程学防范知识查询平台技术解析 在企业信息安全防护体系中,最脆弱的环节往往不是防火墙或加密算法,而是人。近年来,社会工程学攻击——如伪装成IT支持人员的电话钓鱼、伪造高管邮件进行转账诈骗、利用AI语音模仿亲属求…

作者头像 李华
网站建设 2026/4/13 19:27:24

Langchain-Chatchat蓝队防御策略查询工具实现

Langchain-Chatchat蓝队防御策略查询工具实现 在一场红蓝对抗演练中,当攻击方突然发起基于SMB协议的横向移动时,蓝队分析师能否在30秒内准确调出检测规则、响应流程和历史处置记录?传统依赖文档检索与经验记忆的方式往往滞后,而公…

作者头像 李华