news 2026/6/10 12:47:02

<span class=“js_title_inner“>京东零售广告创意:统一的布局生成和评估模型</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>京东零售广告创意:统一的布局生成和评估模型</span>

MM2025: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

论文链接:https://arxiv.org/abs/2508.02374

代码链接:https://github.com/JD-GenX/Uni-Layout

摘要:布局生成在电商图片的设计中起到至关重要的作用。当前的布局生成方法在能力上具有任务特定性,并且评估标准与人类感知不一致,导致其应用范围有限且评估效果不佳。为了解决这些问题,Uni-Layout实现了统一生成、模拟人类的评估以及二者之间的对齐。针对通用生成,该框架将各种布局任务整合到一个统一的分类系统中,并开发了一个统一的生成器,通过自然语言提示处理背景或元素内容受限的任务。为了引入人类反馈以有效评估布局,我们构建了Layout-HF100k,这是首个包含10万个人工标注布局的大规模人类反馈数据集。基于Layout-HF100k,我们引入了一种模拟人类的评估器,该评估器结合视觉和几何信息,采用思维链机制进行定性评估,并通过信心估计模块提供定量测量。为了更好地对齐生成器和评估器,我们采用动态边距偏好优化(DMPO)技术,将二者整合为一个协调系统,以更好地符合人类判断。一、背景及现状

布局生成旨在为给定的元素设计吸引人的视觉排版,涵盖从海报和文档设计到用户界面布局和杂志排版等广泛任务。虽然生成模型取得了显著进展,但现有方法通常专注于狭义任务,导致解决方案缺乏灵活性和普适性。此外,尽管现有的评估指标基于布局设计原则精心设计,但它们常常与人类的感知不一致。如图1所示,高评分的布局可能在视觉质量上较差,这揭示了现有指标与真实人类感知之间的差距。为了解决这些挑战,我们提出了Uni-Layout,一个通过统一生成器、模拟人类的评估器和动态边距对齐机制来整合布局生成、评估和对齐的整体框架。为了详细阐述Uni-Layout,本文围绕三个核心研究问题展开。

图1:布局生成任务的分类体系与动机阐述

二、如何实现跨任务的统一布局生成

为了系统地统一当前分散的布局生成任务领域,我们提出了一个基于两个维度的精心组织的分类法:背景和元素内容是自由的还是受限的。如图1所示,我们将现有的布局任务分为四种代表性类型:BFEF、BCEF、BFEC和BCEC。当前的任务特定方法在统一布局生成方面存在困难,但多模态大型语言模型(MLLMs)由于其通用的视觉-语言理解能力,提供了有前景的解决方案。利用MLLMs,我们提出了一个统一的布局生成器,其工作方式类似于一名熟练的设计师。该生成器结合视觉约束和文本指令来生成连贯的布局,能够处理背景和元素内容既可以受限也可以自由的多种场景。通过在各种布局任务上的联合训练,它为布局生成提供了一个灵活且统一的解决方案。

为了统一多种布局任务,一个通用的布局任务指令可写作:

其中T为任务描述,b表示背景的内容和属性,e表示元素的内容和属性,O是指定的输出格式。注意背景和元素的属性是必须的,但其内容可为空。为了清楚起见,我们针对BCEC任务提供了一个说明示例,其中下划线部分对应上式中的对应项。

三、如何模拟人类来评估布局?

尽管人类感知在布局设计中非常重要,但现有数据集中缺乏对布局质量的人类反馈。为弥补这一缺口,我们汇总了统一生成器的输出,并编制了Layout-HF100k,这是首个专为布局生成策划的全面人类反馈数据集,包含10万个精心标注的高质量示例,涵盖代表性布局任务。该数据集的示例如图2所示。

图2:Layout-HF100k示例。第一/二行分别为合格/不合格布局。

基于这一全新的数据集,我们开发了一种评估器,结构如图3(b)和(c)所示。其通过视觉和几何信息两个分支处理布局,以有效模拟人类判断模式。此外,该评估器结合了一个输出定量置信度估计的分类头,以及定性“思维链”(CoT)推理,使其能够捕捉微妙的审美偏好,并提供与人类感知模式紧密对齐的可解释评估。通过结合多模态分析和CoT推理,我们的评估器不仅能够做出准确判断,还能阐明其决策背后的理由,类似于人类专家如何评估布局。

具体来说,CoT包含以下四个步骤:

(1) 布局概览:对布局可视化结果快速而全面的扫描,通过简洁的文本描述捕捉布局的第一印象,概述整体构图和上下文元素。

(2) 空间解构:系统地分解布局的基本组成部分,分析几何属性和空间关系。它检查对齐模式、识别潜在重叠,并评估间距一致性,以揭示潜在的结构框架。

(3) 美学评估:对布局的视觉质量进行详细评估,重点关注艺术价值和设计原则。这包括对比例平衡、空间和谐和视觉节奏的评估,同时考虑这些元素如何对整体美学效果产生影响。

(4) 全面评估:最后阶段综合所有先前分析的见解,以提供对布局有效性的全面评估,最后给出“合格”或“不合格”的明确判断。

图3:Uni-Layout框架概览

四、如何有效对齐人类反馈和布局生成?

现有的对齐方法要么直接最大化人类偏好的输出可能性,要么在其偏好学习目标中使用固定边距。这些传统方法未能反映人类偏好的不同程度,因为它们对强偏好和弱偏好一视同仁。为了解决这一限制,我们提出了一种新的对齐方法,称为动态边距偏好优化(DMPO)。具体而言,当评估者在成对样本之间表现出更强烈的偏好时,DMPO会自动增加边距,以在胜出和失败的响应之间强制产生更大的分数差异,而对于不太明显的偏好则应用较小的边距。这种信心引导的自适应边距策略更好地捕捉了人类判断的范围,从而实现与布局生成和人类偏好的更精确对齐。

如图3(d)所示,给定任务指令和可选的背景或元素内容,生成器产生两个候选布局l1和l2。之后通过双分支处理器将布局结果转化为视觉和几何信息,并通过布局评估器产出候选布局的得分。我们将两种布局的分数差距定义如下:

其中I+和l+分别表示高分布局的视觉和几何信息。为了进一步增强对边距的感知,我们应用了非线性变换f()来处理分数差距。最终,DMPO的损失形式可写作:

通过将生成和评估整合到反馈循环中,DMPO弥合了布局生成和人类审美偏好之间的差距,产生了更具视觉吸引力的布局。

五、实验结果

(1)布局评估模型性能

为了验证我们的评估器,我们将其与一些领先的闭源(M)LLM模型进行比较,包括GPT-4o、Claude3.5 Sonnet(Claude3.5)、GLM-4v和DeepSeek-R1。这些模型遵循“LLM-as-Judge”范式。所有模型接收相同的指令和视觉输入,除了DeepSeek-R1,它只处理文本。如表1所示,我们的模型表现出色,达到85.5%的准确率,比现有的MLLMs高出25-35%。一些MLLMs的表现接近随机(约50%),突显了它们在布局评估中的局限性。

表1 :布局评估模型对比

(2)布局生成模型性能

在本小节中,我们与三类基线方法进行了比较:(1) 针对单个布局任务设计的任务特定SOTA模型(例如,LayoutDM);(2) 闭源模型,包括GPT-4o、Claude3.5和DeepSeek-R1;(3) 开源的多模态大语言模型(MLLMs),如联合训练四个任务的LLaVA。

在表2展示的任务特定评估中,我们的方法在多个指标上表现出色。值得注意的是,在BFEF任务中,我们实现了最低的Ove(0.001)和Ali(0.00004),与专用模型如LayoutDM和LayoutFlow持平或超越。在BFEC任务中,我们的方法以最小的Ove(0.00045)和最高的Max.(0.439)创下新纪录。在BCEF任务中,我们在𝑅𝑐𝑜𝑚(31.848)和𝑅𝑠𝑢𝑏(0.774)方面取得了最佳结果。同样,在BCEC任务中,我们的方法以最低的𝑅𝑐𝑜𝑚(8.536)显著优于现有方法,同时在其他指标上保持竞争力。

表2:任务特定评估指标结果

针对所有任务的人类模拟评估,我们引入了评估模型的LR分数来评估性能。如图4所示,我们的方法实现了最高的LR分数0.702,在不同布局场景中表现出持续的优越性。与其他模型相比,我们显著超越了GPT-4o(0.584)、Claude3.5(0.575)和DeepSeek-R1(0.401),差距明显。与开源基线LLaVA(0.422)相比,性能差距更加显著,提升了近30%。与LayoutFlow(BFEF的SOTA)、P&R(BFEC的SOTA)和Poster-Llama(BCEF和BCEC的SOTA)取得的平均LR分数0.658相比,我们的方法取得了更优的结果,从而验证了Uni-Layout的有效性。

图4: 人类模拟评估指标结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/31 13:51:48

<span class=“js_title_inner“>让 AI 也能当“反洗钱专家“——一个通俗易懂的模型训练故事</span>

故事的开端:为什么要做这件事?想象一下,你是一家银行的合规专员。每天要面对厚厚的反洗钱法规文件,还要分析各种复杂的可疑交易案例。有些问题特别棘手:法律条文晦涩难懂,一个条款套着另一个条款真实的洗钱案例千奇百怪,要从蛛丝马迹中发现问题有时候一个问题涉及好…

作者头像 李华
网站建设 2026/5/16 14:23:50

堪比图吧工具箱!入梦工具箱 近百种硬件检测工具

下载链接https://pan.freedw.com/s/aHdahn给需要硬件检测的小伙伴推荐一款实用工具 —— 入梦工具箱,它和热门的图吧工具箱功能几乎一模一样,同样收集了近百种各类硬件检测工具,不管是检测电脑配置、排查硬件故障,还是性能测试&am…

作者头像 李华
网站建设 2026/6/5 7:59:53

梦笔记20260103

回家遇到侄女,说她是老奶抱大的,应该感恩。老姐在一个沙岛上,上班要坐飞机,先到陆地?出差到科大,交流工作。对方是个女的,问验收杀毒软件。我一愣:周总没说啊。回答呆会问问。问住宿…

作者头像 李华
网站建设 2026/6/4 16:03:57

<span class=“js_title_inner“>科技企业家 | 驭势科技吴甘沙:自动驾驶领域的“长跑者”</span>

当今科技创新已成为决定经济社会发展质量的关键。然而从“书斋”到“车间”,从“论文”到“产品”,创新之路绝非坦途。破局之道,则在于“人”。在“十五五”开局的关键节点,我们推出“科技企业家”系列报道,不为讲述个…

作者头像 李华
网站建设 2026/6/10 12:35:27

2026第26届立嘉国际智能装备展览会关注度高吗?参展能带来商机吗?

这一次的国际智能装备展览会,本身就是一个代表性的展会,现在早就已经成为行业内受到大家关注的盛会。那么这一次的关注度是不是很高呢?如果大家参会,又有什么样的商机?这一次的关注度还是比较高的,例如展会…

作者头像 李华