news 2026/4/16 10:49:26

CGPO:完美融合—用评审混合机制重塑RLHF

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例,但这种方式难以泛化。

在本工作中,我们提出了一种新的后训练范式,称为约束生成策略优化(Constrained Generative Policy Optimization,CGPO)。CGPO的核心是评审混合机制(Mixture of Judges,MoJ),结合了具成本效益的分层约束策略优化方法,能够以原理化方式识别RLHF中的“完美融合”。CGPO具有强大的实证效果和理论保证,无需大量超参数调优,并可直接接入常见的后训练流程中。通过这种方式,CGPO能够检测并缓解奖励操纵行为,同时在极大量的优化目标上达到帕累托最优点。

我们的实验结果表明,CGPO在通用聊天、STEM问题、指令跟随、数学、编程和知识问答等多个任务上持续优于当前常用的RLHF最先进算法(如PPO和DPO)。具体而言,在AlpacaEval-2(通用聊天)上比PPO提高了7.4%,在Arena-Hard(STEM与推理)中提高了12.5%,在IFEval(指令跟随)中提高了2%,在MATH和GSM8K(数学与推理)中均提高了2%,在HumanEval(编程)中提高了5%,在ARC challenge(知识)中提高了2%。我们还观察到PPO在主流编程基准测试中出现了严重的奖励操纵行为,而CGP

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 8:47:12

使用Keil MDK进行STM32固件烧录操作指南

手把手教你用Keil MDK完成STM32固件烧录:从连接失败到一键下载的实战全解析你有没有遇到过这样的场景?电路板焊好了,ST-Link也插上了,Keil uVision工程配置得一丝不苟——结果一点“Download”,弹窗却冷冰冰地告诉你&a…

作者头像 李华
网站建设 2026/4/13 10:14:35

万物识别模型压测指南:快速创建分布式测试环境

万物识别模型压测指南:快速创建分布式测试环境 作为一名性能测试工程师,你是否遇到过这样的困境:需要评估物体识别API的并发处理能力,但公司的基础设施资源有限,无法满足大规模压测需求?本文将介绍如何利用…

作者头像 李华
网站建设 2026/4/15 4:00:01

如何在VSCode中实现毫秒级语言模型调试响应?3个性能优化秘诀

第一章:VSCode语言模型调试的现状与挑战Visual Studio Code(VSCode)作为当前最流行的代码编辑器之一,已被广泛应用于语言模型开发与调试流程中。其轻量级架构、丰富的插件生态以及对多种编程语言的良好支持,使其成为研…

作者头像 李华
网站建设 2026/4/15 12:17:26

VSCode Agent HQ性能监控体系搭建(精准定位资源消耗元凶)

第一章:VSCode Agent HQ性能监控体系搭建(精准定位资源消耗元凶) 在高并发开发环境中,VSCode Agent HQ常因插件负载、语言服务器或调试进程引发性能瓶颈。为实现对资源消耗的精准追踪,需构建一套轻量级监控体系&#x…

作者头像 李华
网站建设 2026/4/14 14:15:01

情感化时空:当AI成为城市记忆的“翻译官”与共创伙伴

一、被遗忘的城市情感维度 在我们的城市中,存在着两种并行的“时间”:一种是物理时间,由钟表测量,在钢筋水泥的衰老中缓缓流逝;另一种是情感时间,由记忆编织,在街角的老槐树、褪色的墙面涂鸦和巷口的早餐摊中凝结成琥珀。 传统城市景观设计面临三重困境:标准化生产导…

作者头像 李华
网站建设 2026/4/9 10:26:55

Qwen3Guard-Gen-8B在新闻摘要生成中的前置安全检查应用

Qwen3Guard-Gen-8B在新闻摘要生成中的前置安全检查应用 在当今信息爆炸的时代,新闻内容的自动化处理已成为主流媒体和资讯平台的核心能力。随着大语言模型(LLM)广泛应用于新闻摘要生成,如何确保输出内容的安全性、合规性和社会可接…

作者头像 李华