📖标题:Beneath the Surface: Investigating LLMs’ Capabilities for Communicating with Subtext
🌐来源:arXiv, 2604.05273v1
🛎️文章简介
🔸研究问题:当前的大语言模型能否在创造性沟通中有效使用和理解超越字面含义的潜台词?
🔸主要贡献:提出了四个全新的评估套件,系统量化了大模型在寓言写作、多智能体游戏等场景下的潜台词沟通能力。
📝重点思路
🔸构建视觉隐喻环境,模仿桌游 Dixit 规则,要求模型生成既非过于直白也非晦涩难懂的线索,仅让部分玩家理解意图。
🔸设计调谐游戏环境,基于 Wavelength 规则,测试模型能否利用共享背景知识向队友传递特定频谱位置的隐含信息。
🔸创建历史寓言评估集,通过改变作者身份和读者人设等副文本因素,考察模型对虚构故事中历史影射的解读能力。
🔸开发伊索作者环境,模拟审查制度下的高压场景,要求模型撰写能让批评家读懂禁言话题却骗过审查官的故事。
🔎分析总结
🔸前沿模型普遍存在过度直白的偏差,在视觉隐喻任务中即使表现最好的模型也有六成时间生成能被所有人猜出的明显线索。
🔸当明确告知模型存在共享背景知识时,高级推理模型能将直白线索减少三至五成,但难以在未被告知时主动推断共同基础的存在。
🔸副文本因素如作者姓名和读者人设显著影响寓言解读,提供正确背景信息可将模型的历史事件识别准确率从两成提升至七成以上。
🔸在最具挑战的伊索作者任务中模型表现不佳,成功率极低,且一旦模型被预设为持不同政见者,其通过审查的能力几乎降为零。
💡个人观点
论文将对潜台词的定性讨论转化为可量化的动态评估,揭示了当前大模型缺乏对听众认知状态的灵活建模能力,还指出了副文本在引导模型理解深层含义中的关键作用。