＜span class=“js_title_inner“＞京东零售广告创意：统一的布局生成和评估模型＜/span＞-编程阁

MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

论文链接：https://arxiv.org/abs/2508.02374

代码链接：https://github.com/JD-GenX/Uni-Layout

摘要：布局生成在电商图片的设计中起到至关重要的作用。当前的布局生成方法在能力上具有任务特定性，并且评估标准与人类感知不一致，导致其应用范围有限且评估效果不佳。为了解决这些问题，Uni-Layout实现了统一生成、模拟人类的评估以及二者之间的对齐。针对通用生成，该框架将各种布局任务整合到一个统一的分类系统中，并开发了一个统一的生成器，通过自然语言提示处理背景或元素内容受限的任务。为了引入人类反馈以有效评估布局，我们构建了Layout-HF100k，这是首个包含10万个人工标注布局的大规模人类反馈数据集。基于Layout-HF100k，我们引入了一种模拟人类的评估器，该评估器结合视觉和几何信息，采用思维链机制进行定性评估，并通过信心估计模块提供定量测量。为了更好地对齐生成器和评估器，我们采用动态边距偏好优化（DMPO）技术，将二者整合为一个协调系统，以更好地符合人类判断。一、背景及现状

布局生成旨在为给定的元素设计吸引人的视觉排版，涵盖从海报和文档设计到用户界面布局和杂志排版等广泛任务。虽然生成模型取得了显著进展，但现有方法通常专注于狭义任务，导致解决方案缺乏灵活性和普适性。此外，尽管现有的评估指标基于布局设计原则精心设计，但它们常常与人类的感知不一致。如图1所示，高评分的布局可能在视觉质量上较差，这揭示了现有指标与真实人类感知之间的差距。为了解决这些挑战，我们提出了Uni-Layout，一个通过统一生成器、模拟人类的评估器和动态边距对齐机制来整合布局生成、评估和对齐的整体框架。为了详细阐述Uni-Layout，本文围绕三个核心研究问题展开。

图1：布局生成任务的分类体系与动机阐述

二、如何实现跨任务的统一布局生成

为了系统地统一当前分散的布局生成任务领域，我们提出了一个基于两个维度的精心组织的分类法：背景和元素内容是自由的还是受限的。如图1所示，我们将现有的布局任务分为四种代表性类型：BFEF、BCEF、BFEC和BCEC。当前的任务特定方法在统一布局生成方面存在困难，但多模态大型语言模型（MLLMs）由于其通用的视觉-语言理解能力，提供了有前景的解决方案。利用MLLMs，我们提出了一个统一的布局生成器，其工作方式类似于一名熟练的设计师。该生成器结合视觉约束和文本指令来生成连贯的布局，能够处理背景和元素内容既可以受限也可以自由的多种场景。通过在各种布局任务上的联合训练，它为布局生成提供了一个灵活且统一的解决方案。

为了统一多种布局任务，一个通用的布局任务指令可写作：

其中T为任务描述，b表示背景的内容和属性，e表示元素的内容和属性，O是指定的输出格式。注意背景和元素的属性是必须的，但其内容可为空。为了清楚起见，我们针对BCEC任务提供了一个说明示例，其中下划线部分对应上式中的对应项。

三、如何模拟人类来评估布局？

尽管人类感知在布局设计中非常重要，但现有数据集中缺乏对布局质量的人类反馈。为弥补这一缺口，我们汇总了统一生成器的输出，并编制了Layout-HF100k，这是首个专为布局生成策划的全面人类反馈数据集，包含10万个精心标注的高质量示例，涵盖代表性布局任务。该数据集的示例如图2所示。

图2：Layout-HF100k示例。第一/二行分别为合格/不合格布局。

基于这一全新的数据集，我们开发了一种评估器，结构如图3（b）和（c）所示。其通过视觉和几何信息两个分支处理布局，以有效模拟人类判断模式。此外，该评估器结合了一个输出定量置信度估计的分类头，以及定性“思维链”（CoT）推理，使其能够捕捉微妙的审美偏好，并提供与人类感知模式紧密对齐的可解释评估。通过结合多模态分析和CoT推理，我们的评估器不仅能够做出准确判断，还能阐明其决策背后的理由，类似于人类专家如何评估布局。

具体来说，CoT包含以下四个步骤：

(1) 布局概览：对布局可视化结果快速而全面的扫描，通过简洁的文本描述捕捉布局的第一印象，概述整体构图和上下文元素。

(2) 空间解构：系统地分解布局的基本组成部分，分析几何属性和空间关系。它检查对齐模式、识别潜在重叠，并评估间距一致性，以揭示潜在的结构框架。

(3) 美学评估：对布局的视觉质量进行详细评估，重点关注艺术价值和设计原则。这包括对比例平衡、空间和谐和视觉节奏的评估，同时考虑这些元素如何对整体美学效果产生影响。

(4) 全面评估：最后阶段综合所有先前分析的见解，以提供对布局有效性的全面评估，最后给出“合格”或“不合格”的明确判断。

图3：Uni-Layout框架概览

四、如何有效对齐人类反馈和布局生成？

现有的对齐方法要么直接最大化人类偏好的输出可能性，要么在其偏好学习目标中使用固定边距。这些传统方法未能反映人类偏好的不同程度，因为它们对强偏好和弱偏好一视同仁。为了解决这一限制，我们提出了一种新的对齐方法，称为动态边距偏好优化（DMPO）。具体而言，当评估者在成对样本之间表现出更强烈的偏好时，DMPO会自动增加边距，以在胜出和失败的响应之间强制产生更大的分数差异，而对于不太明显的偏好则应用较小的边距。这种信心引导的自适应边距策略更好地捕捉了人类判断的范围，从而实现与布局生成和人类偏好的更精确对齐。

如图3（d）所示，给定任务指令和可选的背景或元素内容，生成器产生两个候选布局l1和l2。之后通过双分支处理器将布局结果转化为视觉和几何信息，并通过布局评估器产出候选布局的得分。我们将两种布局的分数差距定义如下：

其中I+和l+分别表示高分布局的视觉和几何信息。为了进一步增强对边距的感知，我们应用了非线性变换f()来处理分数差距。最终，DMPO的损失形式可写作：

通过将生成和评估整合到反馈循环中，DMPO弥合了布局生成和人类审美偏好之间的差距，产生了更具视觉吸引力的布局。

五、实验结果

（1）布局评估模型性能

为了验证我们的评估器，我们将其与一些领先的闭源（M）LLM模型进行比较，包括GPT-4o、Claude3.5 Sonnet（Claude3.5）、GLM-4v和DeepSeek-R1。这些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和视觉输入，除了DeepSeek-R1，它只处理文本。如表1所示，我们的模型表现出色，达到85.5%的准确率，比现有的MLLMs高出25-35%。一些MLLMs的表现接近随机（约50%），突显了它们在布局评估中的局限性。

表1 ：布局评估模型对比

（2）布局生成模型性能

在本小节中，我们与三类基线方法进行了比较：(1) 针对单个布局任务设计的任务特定SOTA模型（例如，LayoutDM）；(2) 闭源模型，包括GPT-4o、Claude3.5和DeepSeek-R1；(3) 开源的多模态大语言模型（MLLMs），如联合训练四个任务的LLaVA。

在表2展示的任务特定评估中，我们的方法在多个指标上表现出色。值得注意的是，在BFEF任务中，我们实现了最低的Ove（0.001）和Ali（0.00004），与专用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任务中，我们的方法以最小的Ove（0.00045）和最高的Max.（0.439）创下新纪录。在BCEF任务中，我们在𝑅𝑐𝑜𝑚（31.848）和𝑅𝑠𝑢𝑏（0.774）方面取得了最佳结果。同样，在BCEC任务中，我们的方法以最低的𝑅𝑐𝑜𝑚（8.536）显著优于现有方法，同时在其他指标上保持竞争力。

表2：任务特定评估指标结果

针对所有任务的人类模拟评估，我们引入了评估模型的LR分数来评估性能。如图4所示，我们的方法实现了最高的LR分数0.702，在不同布局场景中表现出持续的优越性。与其他模型相比，我们显著超越了GPT-4o（0.584）、Claude3.5（0.575）和DeepSeek-R1（0.401），差距明显。与开源基线LLaVA（0.422）相比，性能差距更加显著，提升了近30%。与LayoutFlow（BFEF的SOTA）、P&R（BFEC的SOTA）和Poster-Llama（BCEF和BCEC的SOTA）取得的平均LR分数0.658相比，我们的方法取得了更优的结果，从而验证了Uni-Layout的有效性。

图4：人类模拟评估指标结果