news 2026/4/16 14:12:36

LLMs之Multi-Agent之Interlat:《Enabling Agents to Communicate Entirely in Latent Space》翻译与解读

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLMs之Multi-Agent之Interlat:《Enabling Agents to Communicate Entirely in Latent Space》翻译与解读

LLMs之Multi-Agent之Interlat:《Enabling Agents to Communicate Entirely in Latent Space》翻译与解读

导读:这篇论文介绍了一种名为Interlat的创新范式,旨在通过让LLM Agent完全在潜在空间中进行通信,从而克服传统自然语言通信的局限性。Interlat的核心思想是直接传输Agent的最后一层隐藏状态作为其“思维”的表示,并结合一个额外的压缩过程。实验结果表明,Interlat在多步任务基准ALFWorld上显著优于基于自然语言的基线,不仅提高了任务解决能力,还促进了更深层次的探索性行为和对潜在信息的真正理解。此外,研究还证明了潜在通信可以被高效压缩,大幅减少通信延迟,同时通过保留多样化的并行推理路径来维持高性能。这项工作为未来的Multi-Agent系统设计提供了新的视角,强调了潜在空间通信在提升Agent协作和效率方面的巨大潜力。

>>背景痛点:

自然语言通信的局限性:

* 将丰富、高维的内部潜在状态下采样为离散的自然语言标记(token),限制了信息传输的深度和细微差别。

* 阻碍了Agent之间进行深度协作解决问题。

* 大型语言模型(LLM)通常只能通过“思维链”(CoT)暴露单一的线性思考过程。

* 生成的文本中很大一部分用于维持语言连贯性,而非传达必要信息,导致效率低下。

* 这种低效范式导致Agent间通信模糊、有损,阻碍了有效协调,是Multi-Agent系统任务失败的主要原因。

● 现有潜在状态通信方法的不足

* 先前的尝试要么依赖于一次性激活嫁接(one-shot activation graft),难以承载多条思维路径

* 要么仍受语言空间的限制,潜在状态必须与已采样的文本轨迹配对。

* 这些方法通常需要特设的层选择,增加了额外的调优过程。

>>具体的解决方案:

● Interlat(Agent间潜在空间通信)范式:提出一种新颖的范式,通过直接传输LLM的最后一层隐藏状态来表示Agent的“思维”,实现完全在潜在空间中的直接通信。引入额外的压缩过程,通过完全在潜在空间中的推理进一步压缩潜在通信。

● 将“读心术”应用于Agent通信:受人类“读心术”的启发,将Agent的“读心”能力形式化为区分和有效利用潜在通信中丰富信息的能力。

● 专注于核心通信机制:实验集中在双Agent发送者-接收者场景,避免引入检索、工具使用或多轮辩论等正交组件,以减少混淆因素,纯粹研究潜在空间通信的可行性

>>核心思路步骤:

(1)、潜在通信机制:

*直接传输隐藏状态: Agent不传输通过语言模型头部解码和嵌入层处理的标记,而是直接传输所有生成标记的最后一层隐藏状态序列。

*通信标记: 使用特殊标记 <bop>(开始)和 <eop>(结束)来标记潜在通信的开始和结束。

* 接收方输入构建: 接收Agent将收到的潜在通信(隐藏状态序列)与自身的输入嵌入序列进行拼接,作为其Transformer模型的输入。

* 通信适配器:潜在通信通过一个可训练的轻量级自注意力层和一个投影层(作为通信适配器)进行处理,用于幅度重缩放并帮助Agent更好地解释这些潜在表示中的潜在含义。

(2)、训练过程(Actor Agent):

* 角色设定: 设定一个“推理Agent”(发送者)生成任务特定计划及其潜在状态,一个“行动Agent”(接收者)消费这些信息并生成动作以解决任务。

* 总目标函数: L_total = L_task + λ_S * L_sep + λ_A * L_align

* L_task(下一标记交叉熵):标准的交叉熵损失,确保模型根据给定任务生成准确和连贯的响应。

* L_sep(条件思维分离):通过最小化匹配和不匹配潜在通信(通过批次内潜在通信置换获得)条件分布之间的加权Jensen-Shannon散度,鼓励行动Agent理解并利用潜在信息。

* L_align(计划对齐正则化):通过KL散度和logit向量的余弦相似度,将基于潜在通信的预测与基于语言空间计划的预测进行正则化,防止模型通过增加散度但损害任务效用的方式来优化目标。

* 课程学习: 采用渐进式课程学习策略,通过随机替换策略,逐步用对应的文本嵌入从左到右替换部分潜在通信,以提高训练效率并逐步引导Agent理解潜在信息。

(3)、信息压缩:

* 训练推理Agent: 在行动Agent和通信适配器冻结的情况下,训练推理Agent生成更短、信息更丰富的潜在通信

* 自回归潜在空间推理: 推理Agent通过自回归地将最后一层隐藏状态直接作为下一个输入嵌入(通过一个投影桥 Proj(h_i))来在连续潜在空间中进行推理。

* 监督信号: 压缩训练使用监督信号,这些信号来源于行动Agent的交叉熵损失,以及压缩潜在通信与全长潜在通信下行动Agent输出分布的不确定性加权对齐。

* L_task:确保压缩后的潜在通信仍能驱动正确的下一标记预测,防止过度压缩。

* L_pref:不确定性加权协议,通过匹配全长潜在通信和压缩潜在通信下的输出分布,鼓励压缩潜在通信再现全长潜在通信的信息行为效果。

* L_geom:潜在方向对齐,通过对齐生成潜在通信和数据潜在通信所诱导的行动Agent侧潜在特征的全局方向,稳定压缩过程,防止几何漂移。

>>优势:

性能超越自然语言基线: Interlat在已见和未见任务上均优于微调的思维链(CoT)提示和单Agent基线,显著提高了Agent的任务解决能力。

● 促进探索性行为: 潜在通信鼓励Agent进行更彻底的探索性行为模式,导致更高的整体任务成功率,而非随机探索。

● 真正的潜在信息理解: Agent能够真正利用潜在通信中携带的密集和隐含信息,而不仅仅是匹配表面的分布线索。

● 高效的信息压缩:

* 潜在消息可以被高度压缩(低至8个标记),同时保持有竞争力的性能,实现高达24倍的通信延迟减少。

* 压缩不仅显著加速了推理,而且通过高效的信息保留机制维持了性能。

● 信息并行性: 训练后的潜在通信在多个推理步骤中保持了稳定的信息并行性,保留了更广泛的合理推理路径,避免了过早地收敛到单一假设。

● 鲁棒性: 对比实验表明,潜在通信对扰动(如跨任务不匹配、高斯噪声、随机旋转)敏感,证实了其携带的结构化和任务特定信息的关键作用。

● 提升Agent间协作: 通过直接传输潜在状态,实现了更紧密的意图对齐和更有效的协作。

>>结论观点(经验与建议):

● 潜在空间通信的可行性: 本研究作为一项可行性研究,成功证明了完全在潜在空间中进行Agent间通信的潜力,为未来研究提供了宝贵的见解。

“读心术”的涌现: 学习解释潜在通信与LLM固有的处理模式相符,模型在训练过程中展现出理解潜在信息的“顿悟时刻”,从无法区分到能够有效利用潜在信息。

● 课程学习和损失函数的重要性: 课程学习策略和定制的损失函数(特别是条件思维分离损失和计划对齐正则化)对于引导LLM逐步理解和利用潜在信息至关重要。

通信适配器的关键作用: 轻量级通信适配器在桥接Agent的潜在空间和实现潜在通信的解释方面发挥着关键作用。

● 压缩的有效性: 适度压缩不仅能减少计算开销,还能在训练阶段通过学习高效、压缩的表示来提高性能稳定性。

● 未来研究方向:

* 探索集成来自不同家族的模型,以实现更丰富的通信。

* 利用多层隐藏状态来支持更深入、更富有洞察力的通信。

* 联合训练更Multi-Agent在潜在空间中进行通信,以实现方法的规模化。

● 对Multi-Agent系统的贡献: 这些发现有望鼓励更广泛地研究潜在空间通信,并促进更先进的Multi-Agent系统的发展

目录

《Enabling Agents to Communicate Entirely in Latent Space》翻译与解读

Abstract

1、Introduction

Figure 1: A comparison of Interlat with conventional language-space communication.In language space, an agent transmits a discrete token sequence [xi, xi+1, . . . , xi+j+1] (e.g., a CoT plan) to another. In Interlat, the model leverages its last hidden states as a representation of its internal “mind” state, processed by a communication adapter, and then transmits them directly to the other agent, enabling communication entirely in latent space with higher expressive capacity.图 1:Interlat 与传统语言空间通信的比较。在语言空间中,一个智能体向另一个智能体传输离散标记序列 [xi, xi+1, …, xi+j+1](例如,一个 CoT 计划)。而在 Interlat 中,模型利用其最后的隐藏状态作为其内部“思维”状态的表示,经过通信适配器处理后,直接将其传输给另一个智能体,从而实现完全在潜在空间中的通信,具有更高的表达能力。

Figure 2: Training the reasoning model with frozen-actor supervision.图 2:使用冻结策略监督训练推理模型。

5 Conclusion


《Enabling Agents to Communicate Entirely in Latent Space》翻译与解读

地址

论文地址:https://arxiv.org/abs/2511.09149

时间

2025 年 11 月 12 日

作者

浙江大学

阿里巴巴集团旗下淘宝网

南洋理工大学

上海交通大学

Abstract

While natural language is the de facto communication medium for LLM-based agents, it presents a fundamental constraint. The process of downsampling rich, internal latent states into discrete tokens inherently limits the depth and nuance of information that can be transmitted, thereby hindering collaborative problem-solving. Inspired by human mind-reading, we propose Interlat (Inter-agent Latent Space Communication), a paradigm that leverages the last hidden states of an LLM as a representation of its mind for direct transmission (termed latent communication). An additional compression process further compresses latent communication via entirely latent space reasoning. Experiments demonstrate that Interlat outperforms both fine-tuned chain-of-thought (CoT) prompting and single-agent baselines, promoting more exploratory behavior and enabling genuine utilization of latent information. Further compression not only substantially accelerates inference but also maintains competitive performance through an efficient information-preserving mechanism. We position this work as a feasibility study of entirely latent space inter-agent communication, and our results highlight its potential, offering valuable insights for future research.

虽然自然语言是基于大型语言模型(LLM)的代理事实上的通信媒介,但它存在一个根本性的限制。将丰富的内部潜在状态下采样为离散标记的过程,本质上限制了可以传输的信息的深度和细微差别,从而阻碍了协作解决问题。受人类读心术的启发,我们提出了“Interlat(代理间潜在空间通信)”这一范式,它利用 LLM 的最后一个隐藏状态作为其思维的表示来进行直接传输(称为潜在通信)。一个额外的压缩过程通过完全潜在空间推理进一步压缩潜在通信。实验表明,Interlat 不仅优于微调的链式思维(CoT)提示和单代理基线,还促进了更具探索性的行为,并能够真正利用潜在信息。进一步压缩不仅大大加快了推理速度,还通过一种高效的信息保留机制保持了具有竞争力的性能。我们将这项工作定位为完全潜在空间的智能体间通信的可行性研究,我们的结果突显了其潜力,为未来的研究提供了宝贵的见解。

“We do not have organs of communication. Our brains can display our thoughts to the outside world, thereby achieving communication.”

— Cixin Liu, The Dark Forest.

“我们没有专门的交流器官。我们的大脑能够将我们的思想展示给外界,从而实现交流。”

——刘慈欣,《黑暗森林》。

1、Introduction

Large language model (LLM)-based agentic systems represent a promising and considerably attractive area of contemporary research (Wang et al., 2025; 2024). This interest stems from their ability to orchestrate detailed workflows through natural language that enable agents to interact and collaborate for complex task solving (Qian et al., 2024; Zhang et al., 2024b; Tran et al., 2025). However, although readable by human, natural language introduces constrains on a model’s expressive range and can also impose redundant computation: LLMs must down-sample their rich, high-dimensional internal states into discrete tokens, typically exposing only a single linear thought in their message, i.e., a chain of thought (CoT) (Wei et al., 2022) plan to advise another agent (Yu et al., 2024). Furthermore, a large portion of the generated text serves to maintain linguistic coherence rather than to convey essential information (Zhang et al., 2024a). This inefficient paradigm results in ambiguous, lossy inter-agent communication that prevents effective coordination (Chen et al., 2025), which remains a primary cause of task failures in multi-agent systems (Cemri et al., 2025).

Human communication, by contrast, is not limited to explicit language; much of it is implicit and nonverbal latent communication (Aviezer et al., 2012; Kelly et al., 2010). This capacity is closely tied to humans’ ability for “mind-reading”, constructing internal models of others to infer latent intentions (Fletcher et al., 1995; Vogeley et al., 2001). In multi-agent settings, we propose that latent communication provides an analogous form of human mind-reading: instead of inferring others’ thoughts from words, agents transmit representations that can display their latent thoughts for downstream use, enabling tighter alignment of intentions. While direct sharing is technically and ethically challenging for humans, LLM-based agents spend most of their processing budget in the latent space and naturally produce hidden states throughout their intermediate layers, which can be extracted to support direct, expressive communication. Previous works have attempted to use hidden states for communication; however, these approaches either rely on a one-shot activation graft that struggles to carry multiple mind paths. (Ramesh & Li, 2025) or remain constrained by language space, in which hidden states must pair to an already-sampled text trajectory (Tang et al., 2025). Meanwhile, these methods require ad-hoc layer choices, which introduces an extra tuning process.

基于大型语言模型(LLM)的代理系统是当代研究中一个前景广阔且极具吸引力的领域(Wang 等人,2025 年;2024 年)。这种兴趣源于它们能够通过自然语言协调详细的工作流程,使代理能够相互交互和协作以解决复杂任务(Qian 等人,2024 年;Zhang 等人,2024 年 b;Tran 等人,2025 年)。然而,尽管自然语言对人类来说是可读的,但它却给模型的表达范围带来了限制,并且还会造成冗余计算:LLM 必须将其丰富的高维内部状态下采样为离散的标记,通常在其消息中仅暴露一条线性思维,即一条思维链(CoT)(Wei 等人,2022 年)来为另一个代理提供建议(Yu 等人,2024 年)。此外,生成的大量文本用于保持语言连贯性,而非传达关键信息(Zhang 等人,2024 年 a)。这种低效的模式导致了代理间沟通的模糊和信息丢失,从而阻碍了有效协调(Chen 等人,2025 年),这仍是多代理系统中任务失败的主要原因(Cemri 等人,2025 年)。相比之下,人类交流并不仅限于明确的语言;其中很大一部分是隐含的、非语言的潜在交流(Aviezer 等人,2012 年;Kelly 等人,2010 年)。这种能力与人类的“读心术”能力密切相关,即构建他人的内部模型以推断潜在意图(Fletcher 等人,1995 年;Vogeley 等人,2001 年)。在多智能体环境中,我们提出潜在交流提供了一种类似的人类读心术形式:智能体不是从言语中推断他人的想法,而是传输能够展示其潜在想法的表示,以供下游使用,从而实现意图的更紧密对齐。虽然直接共享对人类来说在技术和伦理上都具有挑战性,但基于 LLM 的智能体大部分处理预算都花在潜在空间上,并且自然会在其中间层生成隐藏状态,这些隐藏状态可以被提取出来以支持直接、富有表现力的交流。先前的工作曾尝试使用隐藏状态进行交流;然而,这些方法要么依赖于一次性的激活嫁接,难以承载多条思维路径。(Ramesh 和 Li,2025 年)或者仍受制于语言空间,在这种空间中,隐藏状态必须与已采样的文本轨迹相匹配(Tang 等人,2025 年)。与此同时,这些方法需要临时选择层,这引入了额外的调优过程。

In this work, we propose Interlat, a novel paradigm for direct inter-agent communication entirely in latent space. Rather than transmitting tokens decoded via the language-model head and embedding layer, Interlat transmits the collected last-layer hidden states for all generated tokens, which we term latent communications, as representations of one agent’s latent thoughts for another agent. Formally, we frame the agent’s mind-reading ability as the ability to differentiate and effectively utilize the rich information contained in the latent communication for the task they are solving. Motivated by the high information density inherent in latent states, inspired by (Hao et al., 2024; Shen et al., 2025; Cheng & Van Durme, 2024), we further train the agent to generate messages in an unconstrained latent space. By learning to generate more information-rich latent states, we successfully compress latent communications into much shorter sequences. This compression yields substantial efficiency improvement while preserving the information needed for downstream tasks.

Experimentally, we focus on a two-agent sender-receiver scenario, which is the fundamental building block of various multi-agent systems, and intentionally avoid orthogonal components such as retrieval, tool use, or multi-round debate orchestration, so as to reduce confounding factors. We evaluate our approach on ALFWorld (Shridhar et al., 2020), a multi-step benchmark requiring planning and execution coordination. Compared to conventional natural language baselines, Interlat achieves performance improvements on both seen and unseen tasks. Analysis reveals that agents utilizing latent communication exhibit more exploratory behavior patterns that lead to higher overall success rates with a genuine understanding of task-relevant latent information rather than superficial pattern matching. Moreover, we demonstrate that latent messages can be compressed to as few as 8 tokens while maintaining competitive performance, achieving up to a 24× reduction in communication latency. Further analysis of the output probability distribution after compression reveals how task-critical information is effectively preserved.

在本研究中,我们提出了 Interlat,这是一种全新的直接在潜在空间中实现代理间通信的范式。Interlat 不是通过语言模型头和嵌入层解码的标记进行传输,而是传输所有生成标记的收集到的最后层隐藏状态,我们将其称为潜在通信,作为代理间潜在思想的表示。从形式上讲,我们将代理的读心能力定义为能够区分并有效利用潜在通信中所包含的丰富信息来解决他们所面临的任务。受潜在状态固有的高信息密度的启发,借鉴(Hao 等人,2024 年;Shen 等人,2025 年;Cheng 和 Van Durme,2024 年)的研究成果,我们进一步训练代理在不受约束的潜在空间中生成消息。通过学习生成信息更丰富的潜在状态,我们成功地将潜在通信压缩成了更短的序列。这种压缩带来了显著的效率提升。

在实验中,我们专注于两个智能体的发送者 - 接收者场景,这是各种多智能体系统的基石,并有意避免检索、工具使用或多轮辩论协调等正交组件,以减少干扰因素。我们在 ALFWorld(Shridhar 等人,2020 年)上评估了我们的方法,这是一个需要规划和执行协调的多步骤基准。与传统的自然语言基线相比,Interlat 在已见和未见任务上均实现了性能提升。分析表明,利用潜在通信的智能体展现出更具探索性的行为模式,这使得它们在真正理解与任务相关的潜在信息方面比浅层模式匹配更成功。此外,我们证明了潜在信息可以压缩至仅 8 个标记,同时保持竞争力的性能,通信延迟最多可减少 24 倍。对压缩后的输出概率分布的进一步分析揭示了任务关键信息是如何得到有效保留的。

Figure 1: A comparison of Interlat with conventional language-space communication.In language space, an agent transmits a discrete token sequence [xi, xi+1, . . . , xi+j+1] (e.g., a CoT plan) to another. In Interlat, the model leverages its last hidden states as a representation of its internal “mind” state, processed by a communication adapter, and then transmits them directly to the other agent, enabling communication entirely in latent space with higher expressive capacity.图 1:Interlat 与传统语言空间通信的比较。在语言空间中,一个智能体向另一个智能体传输离散标记序列 [xi, xi+1, …, xi+j+1](例如,一个 CoT 计划)。而在 Interlat 中,模型利用其最后的隐藏状态作为其内部“思维”状态的表示,经过通信适配器处理后,直接将其传输给另一个智能体,从而实现完全在潜在空间中的通信,具有更高的表达能力。

Figure 2: Training the reasoning model withfrozen-actor supervision.图 2:使用冻结策略监督训练推理模型。

5Conclusion

In this paper, we presented Interlat, a novel paradigm for inter-agent communication entirely in latent space. Through extensive experiments, we demonstrated that Interlat successfully enhances agents’ task-solving ability and communication efficiency over language-based methods by effectively utilizing task-related latent information. Analysis also highlighted how latent messages can be highly compressed while retaining performance by preserving diverse, parallel reasoning paths. Future work can further explore the integration of models from different families and leveraging hidden states from multiple layers to enable richer, more insightful communication. Another promising direction is joint training of more agents to communicate in latent space, which has the potential to scale our method. We anticipate these findings will encourage broader study into latent space communication and contribute to the development of more advanced multi-agent systems.

在本文中,我们提出了Interlat,这是一种全新的完全在潜在空间中进行智能体间通信的范式。通过大量的实验,我们证明了 Interlat 相较于基于语言的方法,能够成功地增强智能体的任务解决能力和通信效率,这得益于其对任务相关潜在信息的有效利用。分析还表明,潜在信息可以高度压缩,同时通过保留多样化的并行推理路径来保持性能。未来的研究可以进一步探索不同模型家族的集成以及利用来自多个层的隐藏状态,以实现更丰富、更有洞察力的通信。另一个有前景的方向是联合训练更多智能体在潜在空间中进行通信,这有可能扩展我们的方法。我们期待这些发现将鼓励对潜在空间通信的更广泛研究,并为更先进的多智能体系统的开发做出贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:23:56

大模型备案战已打响,这些AI企业必须现在行动!

很多企业在AI 技术上线的时候能把技术指标吹得天花乱坠&#xff0c;但一面对网信办的备案表格就两眼一抹黑。在他们眼里&#xff0c;备案似乎只是繁琐的行政手续&#xff1b;但在监管层和资深合规专家眼中&#xff0c;这实际上是一场关于技术主权与社会风险的“底线测试”。如果…

作者头像 李华
网站建设 2026/4/16 12:26:35

RuoYi-App移动端开发终极指南:从零搭建跨平台应用

RuoYi-App移动端开发终极指南&#xff1a;从零搭建跨平台应用 【免费下载链接】RuoYi-App &#x1f389; RuoYi APP 移动端框架&#xff0c;基于uniappuniui封装的一套基础模版&#xff0c;支持H5、APP、微信小程序、支付宝小程序等&#xff0c;实现了与RuoYi-Vue、RuoYi-Cloud…

作者头像 李华
网站建设 2026/4/16 10:41:37

Windows 11终极界面改造:5分钟彻底告别圆角窗口的完整指南

Windows 11终极界面改造&#xff1a;5分钟彻底告别圆角窗口的完整指南 【免费下载链接】Win11DisableRoundedCorners A simple utility that cold patches dwm (uDWM.dll) in order to disable window rounded corners in Windows 11 项目地址: https://gitcode.com/gh_mirro…

作者头像 李华
网站建设 2026/4/3 4:17:57

PaddleSpeech r1.5.0终极指南:重新定义智能语音开发

PaddleSpeech r1.5.0终极指南&#xff1a;重新定义智能语音开发 【免费下载链接】PaddleSpeech Easy-to-use Speech Toolkit including Self-Supervised Learning model, SOTA/Streaming ASR with punctuation, Streaming TTS with text frontend, Speaker Verification System…

作者头像 李华
网站建设 2026/4/15 13:45:18

基于Keil5的工业电机控制工程创建实战案例

从零搭建工业电机控制工程&#xff1a;Keil5实战全解析你有没有遇到过这样的场景&#xff1f;刚接手一个电机控制项目&#xff0c;打开Keil5却不知道从哪下手&#xff1b;新建工程后编译报错“cannot open source file”&#xff0c;查了半天才发现头文件路径没配&#xff1b;好…

作者头像 李华
网站建设 2026/4/16 13:35:36

冰箱生产全链路智能化:RFID技术的应用与价值

随着物联网技术的快速发展&#xff0c;制造行业正迎来深刻变革。无线射频识别&#xff08;Radio Frequency Identification, RFID&#xff09;技术凭借非接触式数据采集的核心优势&#xff0c;成为驱动行业转型的关键技术之一。在家电制造领域&#xff0c;尤其是冰箱生产线中&a…

作者头像 李华