RStar2-Agent：通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理-编程阁

概述

本文报告了 rStar2-Agent 的开发和成果，这是一个专门用于数学推理的大规模语言模型。

尽管该模型的参数规模高达 140 亿个，但其性能却可与之前参数规模为 6710 亿个的模型所达到的一流水平相媲美。

这背后的原因是依赖冗长的思维链（CoT）的传统方法的局限性。

换句话说，仅仅通过 “保持足够长的思考时间”，很难发现中间错误和灵活的政策变化。

为了克服这一难题，作者引入了代理强化学习（Agentic Reinforcement Learning），旨在 “让思考更聪明”。
具体来说，强化学习用于学习一种机制，使模型能够恰当地生成和执行 Python 代码，并在反思结果的同时改进其推理能力。

在此基础上，设计了能同时处理 45,000 次工具调用的高效代码执行环境、减少环境噪音的新 GRPO-RoC 算法以及高效的多阶段学习配方。
结果表明，只需 510 个步骤和一周的培训就能达到最先进的水平，而且推理能力可以推广到非数学领域。

建议的方法

我们提出的方法由三个部分组成，用于高效地大规模部署代理强化学习。

首先，构建支持大规模代码执行的基础设施。

作者设计了一个专用执行环境，可在平均 0.3 秒内处理多达 45 000 次并行工具调用。

此外，还实施了动态分配 GPU 计算资源的调度程序，以消除负载偏差。

第二，一种名为 GRPO-RoC（Group Relative Policy Optimisation with Resampling on Correct）的新算法。

这是一种优先强化积极答案轨迹的方法，积极答案轨迹很少出现工具错误或格式违规，而失败轨迹则通过保持其多样性用于训练。

这使得学习既能抵御环境噪声，又能防止奖励黑客。

第三，高效的学习方法。
与传统的以推理为导向的 SFT（监督微调）不同，该系统首先只学习简单指令遵循和工具使用的基础知识，然后通过多阶段 RL 逐步加强推理能力。

这三者使我们能够用比以前更少的计算资源建立实用而强大的推理代理。

实验

在实验中，我们使用 rStar2-Agent-14B 评估了它在数学竞赛问题 AIME24 和 AIME25 以及 HMMT25 等高难度基准上的性能。
结果显示，rStar2-Agent-14B 在 AIME24 和 AIME25 中的正确率分别为 80.6% 和 69.8%，高于 DeepSeek-R1 (671B) 和 Claude-Opus-4.0。

平均响应长度也更短，表明推理精简高效。

在训练过程中，每个阶段的性能提高都很明显。

第一阶段，在 8K 响应长度令牌限制下获得了基本的推理能力，第二阶段将限制扩展到 12K，进一步提高了准确性。

在最后阶段，训练集中在难度更大的问题上，并达到了最先进的标准。

此外，在数学以外的其他领域，通用化性能也得到了证实，在科学推理基准 GPQA-Diamond 和代理工具使用任务 BFCL v3 上都取得了优异成绩。

此外，对错误轨迹和自我反思行为的分析表明，模型学会了 "反思标记 "行为，即积极利用来自环境的反馈，通过试错改进推理。

这证明该方法不仅能提高性能，还能模仿更像人类的思维过程。

搞定周报PPT、活动海报？这些免费插画网站的应急能力超强

周五下午，老板突然要求周一晨会必须有一份“视觉出彩”的周报PPT；或是活动提前，急需一张能在社群刷屏的预热海报——这种让人心头一紧的紧急任务，你是否也经历过？在时间紧迫、预算有限的双重压力下，寻找合适…

李华

League Akari智能助手：英雄联盟玩家的全能游戏伴侣

在英雄联盟的激烈对局中，每一秒都至关重要。League Akari作为一款功能全面的智能辅助工具，专门为LOL玩家设计，通过自动化技术让您专注于真正的游戏乐趣，告别繁琐操作。【免费下载链接】LeagueAkari ✨兴趣使然的，功能…

李华

百度网盘下载提速实战：从蜗牛爬行到高速飞驰的完整指南

你是否经历过这样的场景？面对百度网盘中几个G的重要文件，下载进度条却像蜗牛般缓慢爬行，焦急等待中时间一分分流逝...别担心，今天我们就来解决这个数字时代的效率痛点。【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件…

李华

测试文档的死亡与重生：何时需要，如何撰写？

一个老生常谈的争议在敏捷与DevOps的声浪中，“测试文档无用论”一度甚嚣尘上。它们被视为瀑布时代的遗物，是拖慢流程、制造信息孤岛的元凶。然而，在真实的软件研发战场上，缺失或劣质的测试文档所引发的沟通成本、知识断层与质量…

李华

建立测试知识库：避免“知识孤岛”与“重复造轮子”

在快速迭代的软件开发周期中，测试团队常面临两大挑战：一是测试知识分散于个体之间，形成互不联通的“知识孤岛”；二是不同项目或团队为解决相似问题反复投入精力，造成“重复造轮子”的资源浪费。一个集中、有序、可共享…

李华

NVIDIA显卡性能优化终极指南：Profile Inspector深度使用教程

NVIDIA显卡性能优化终极指南：Profile Inspector深度使用教程【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 想要完全释放NVIDIA显卡的隐藏性能吗？NVIDIA Profile Inspector正是…

李华