Pref-GRPO：通过成对比较实现稳定文本图像生成强化学习的新方法-编程阁

概述

本文为文本到图像（T2I）模型提出了一种新的强化学习方法。

传统的 GRPO（组相对策略优化）方法使用基于分数的奖励模型来评估生成图像的质量，并通过对组内分数进行归一化来更新衡量标准。
然而，这种方法容易出现一个被称为 "奖励黑客 "的问题，即分数增加，图像质量却下降。

作者指出，这是 "虚幻优势 "造成的。
当生成图像之间的分数差异非常小，而归一化会过度强调差异时，就会出现这种情况。

为了解决这个问题，研究提出了一种名为 Pref-GRPO 的新方法。
这是一种基于图像对之间的相对偏好（成对偏好）而不是绝对分数来更新测量结果的机制。

此外，作者还为模型评估设计了一种名为 "UniGenBench "的新基准，可从细粒度维度评估 T2I 模型的性能。
这项工作的意义在于，它克服了传统方法的局限性，能够以更稳定的方式学习图像生成，并符合人类的偏好。

建议的方法

Pref-GRPO 的核心思想是将学习目标从传统的奖励分数最大化转移到 “相对偏好匹配”。

具体来说，针对给定的提示生成多张图像，并进行配对比较。

使用成对奖励模型（PPRM）来确定哪张图片更受欢迎，并将胜率作为奖励信号。

每张图片的胜率在组内进行归一化处理，并用于更新衡量标准。

这种设计有三个优点。

首先，胜出率的使用增加了奖励的方差，可以更清楚地区分质量好和质量差的图像。

其次，由于它是基于相对排名而不是绝对分数差异，因此对奖励噪音具有很强的抗干扰能力，并减少了奖励黑客的出现。

第三，它能提供更自然、更忠实的奖励信号，因为它反映了人类的判断本质上是基于相对比较这一事实。

此外，在评估方面，作者提出的 UniGenBench 甚至可以对文本理解和逻辑推理等细节维度进行评估，从而可以对模型的优缺点进行详细分析。

实验

在实验中，Pref-GRPO 首先与现有的奖励最大化方法（HPS、CLIP、UnifiedReward 等）进行了比较。

实验使用 Flux.1-dev 作为基础模型，并使用 UniGenBench 进行评估。

结果显示，Pref-GRPO 的总分提高了约 6 分，尤其是在逻辑推理和文本绘制方面。

此外，传统方法会出现 "奖励黑客 "现象，即在训练过程中奖励分数增加，图像质量却下降，而 Pref-GRPO 则有效地抑制了这一现象。

此外，对生成的图像进行定性比较后发现，现有方法会出现过度饱和等不自然的倾向，而 Pref-GRPO 则能生成更自然、更稳定的表达。

此外，在外部基准（GenEval 和 T2I-CompBench）中也观察到了稳定的性能改进。

使用 UniGenBench 进行的广泛模型比较显示，GPT-4o 和 Imagen-4.0-Ultra 等封闭源模型表现良好，而 Qwen-Image 和 HiDream 等开放源模型也取得了快速进步。
总之，可以得出结论，这种方法是显著提高 T2I 强化学习稳定性和实用性的有效方法。

搞定周报PPT、活动海报？这些免费插画网站的应急能力超强

周五下午，老板突然要求周一晨会必须有一份“视觉出彩”的周报PPT；或是活动提前，急需一张能在社群刷屏的预热海报——这种让人心头一紧的紧急任务，你是否也经历过？在时间紧迫、预算有限的双重压力下，寻找合适…

李华

League Akari智能助手：英雄联盟玩家的全能游戏伴侣

在英雄联盟的激烈对局中，每一秒都至关重要。League Akari作为一款功能全面的智能辅助工具，专门为LOL玩家设计，通过自动化技术让您专注于真正的游戏乐趣，告别繁琐操作。【免费下载链接】LeagueAkari ✨兴趣使然的，功能…

李华

百度网盘下载提速实战：从蜗牛爬行到高速飞驰的完整指南

你是否经历过这样的场景？面对百度网盘中几个G的重要文件，下载进度条却像蜗牛般缓慢爬行，焦急等待中时间一分分流逝...别担心，今天我们就来解决这个数字时代的效率痛点。【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件…

李华

测试文档的死亡与重生：何时需要，如何撰写？

一个老生常谈的争议在敏捷与DevOps的声浪中，“测试文档无用论”一度甚嚣尘上。它们被视为瀑布时代的遗物，是拖慢流程、制造信息孤岛的元凶。然而，在真实的软件研发战场上，缺失或劣质的测试文档所引发的沟通成本、知识断层与质量…

李华

建立测试知识库：避免“知识孤岛”与“重复造轮子”

在快速迭代的软件开发周期中，测试团队常面临两大挑战：一是测试知识分散于个体之间，形成互不联通的“知识孤岛”；二是不同项目或团队为解决相似问题反复投入精力，造成“重复造轮子”的资源浪费。一个集中、有序、可共享…

李华

NVIDIA显卡性能优化终极指南：Profile Inspector深度使用教程

NVIDIA显卡性能优化终极指南：Profile Inspector深度使用教程【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 想要完全释放NVIDIA显卡的隐藏性能吗？NVIDIA Profile Inspector正是…

李华