极简RL新范式：一半算力刷新1.5B模型推理SOTA-编程阁

当我们在谈论 RL 时，我们在谈论什么？

在过去的一年里，大模型推理能力的提升似乎进入了一种“炼金术”时代，尤其是对于 1.5B - 7B 这种中小参数量模型（SLM）。为了让它们追赶 OpenAI o1 或 DeepSeek-R1 的推理能力，开发者们构建了极其复杂的 RL（强化学习）流水线：

从 DeepScaleR 的三阶段上下文递增，到 ProRL-V2 的九阶段训练；从动态调整温度（Temperature）到复杂的课程学习（Curriculum Learning）。每一篇新论文似乎都在告诉我们：RL 很不稳定，你必须用这十几个 Trick 才能按住它。

论文：JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
链接：https://arxiv.org/pdf/2512.16649

但JustRL这篇论文的出现，就像是在喧闹的集市中突然按下了静音键。清华大学和 UIUC 的研究者们提出了一个振聋发聩的问题：“这些复杂性真的是必须的吗？”

他们的答案是否定的。他们用一套极简的、单阶段的、固定超参的训练方案，在两个主流 1.5B 模型上刷新了 SOTA，同时节省了 2 倍的算力。

0核心方法：回归本质的“极简配方”

JustRL 的核心理念可以用 Antoine de Saint-Exupéry 的那句名言概括：“完美的达成，不是当无以复加时，而是当无可删减时。”

相比于同行们复杂的架构，JustRL 的配置简单到令人惊讶。让我们拆解一下这个“配方” ：

算法内核：标准的 GRPO（Group Relative Policy Optimization），配合二元奖励（Binary Outcome Rewards）。
训练流程：单阶段（Single-stage）。没有从 8k 到 16k 再到 24k 的上下文渐进，直接端到端训练。
超参数：完全固定（Fixed）。学习率恒定 1e-6，温度恒定 1.0，Clip Ratio 固定在 [0.8, 1.28]。没有动态调整策略。
长度控制：没有复杂的长度惩罚项（Length Penalty），仅仅设置了一个 16k 的硬性上限。
Prompt：一句简单的 "Please reason step by step..."，甚至没有做 Prompt Tuning。

这就好比大家都还在研究怎么通过复杂的变速箱逻辑来省油时，JustRL 直接换了一个更高效的引擎，然后把变速箱锁死在了一个档位上，结果跑得更快更稳。

1实验论证：以简驭繁的胜利

口说无凭，数据是最好的证明。JustRL 在 DeepSeek-R1-Distill-Qwen-1.5B 和 OpenMath-Nemotron-1.5B 两个基座上进行了验证。

1. DeepSeek 赛场的“降维打击”

在 DeepSeek-R1-Distill-Qwen-1.5B 这个基座上，JustRL 的表现令人印象深刻。

*我们可以看到 JustRL 在多个数学基准测试中的平均表现。*

性能超越：JustRL 取得了54.87%的平均准确率，击败了此前拥有复杂九阶段训练流程的 ProRL-V2 (53.08%) 。在 AIME 2024 上，JustRL 更是达到了 52.60%，优于 ProRL-V2 的 51.87% 。
算力节省：这才是最杀人诛心的部分。如下表所示，JustRL 的算力消耗仅为 tokens，约为 ProRL-V2 () 的一半，更是只有 BroRL () 的五分之一。

JustRL 在仅使用约 ProRL-V2 50% 的算力预算下，达到了更高的性能。这说明过去的许多“Trick”可能是在空转。

2. Nemotron 赛场的“稳健发挥”

在更强的 OpenMath-Nemotron-1.5B 基座上，JustRL 同样展现了统治力。

它达到了64.32%的平均准确率，超过了使用了复杂课程学习（Curriculum Learning）和问题增强（Question Augmentation）技术的 QuestA (63.81%) 。
QuestA 需要构建包含部分 CoT（思维链）提示的数据集来做课程引导，而 JustRL 仅使用了标准的问答对，没有做任何数据增强。

无论是 DeepSeek 还是 Nemotron 基座，JustRL 都展现出了平滑、单调上升的趋势（a, b 图）。即使在 4000+ 步的训练中，也没有出现通常被认为是 RL 通病的“模型坍塌”或“震荡”。

2为什么“标准技巧”反而有毒？

这篇论文最精彩的洞察来自于它的Ablation Study（消融实验）。作者尝试把一些社区公认的“好用的 Trick”加回去，结果却引发了性能退化。这一点非常反直觉，值得我们深思。

陷阱一：显式长度惩罚（Overlong Penalty）

通常认为，为了防止模型输出过长（废话连篇），需要加一个长度惩罚项。但 JustRL 发现，加上这个惩罚后，AIME 2024 的准确率直接从 55% 卡顿在了 50% 。

Why?观察熵（Entropy）的变化曲线可以发现，加上长度惩罚后，策略的熵迅速降低至 0.5-0.6（而 Baseline 保持在 1.2-1.4）。这意味着模型为了避免惩罚，过早地收敛到了短回复模式，放弃了探索更复杂的推理路径。它为了“短”而牺牲了“深”。

陷阱二：鲁棒验证器（Robust Verifier）

另一个直觉是：如果验证器太严格（比如格式不对就判错），会造成 False Negative，所以应该用更宽容、更鲁棒的验证器。但实验表明，引入宽松验证器后，性能进一步跌至 45% 。

Why?作者认为，严格的验证器虽然偶尔会误伤，但它提供的“高标准”反而迫使模型生成更规范、逻辑更严密的解。过于宽容的验证器让模型失去了打磨细节的动力，也减少了从细微错误中学习的机会。

消融实验图表清晰地展示了“画蛇添足”的后果。图 (b) 中的 Entropy 曲线尤为明显，蓝线（JustRL）保持了健康的探索活力，而红线和黄线（加了Trick）则迅速坍塌，导致模型丧失了进化的潜力。

3总结与展望

JustRL 给狂热的 AI 社区泼了一盆冷水，但这是一盆清醒的冷水。

它证明了在 1.5B 这个尺度上，只要基座模型足够好，RL 训练本身并不像传说中那么不稳定。所谓的“不稳定性”，很多时候可能是我们引入的复杂机制（如动态超参调节、不恰当的数据筛选）人为制造出来的“症状”，而非病根。

JustRL 的价值不在于它提出了什么新算法，而在于它设立了一个坚实的 Baseline。

它告诉所有研究者：在你决定引入复杂的课程学习或多阶段流水线之前，请先确认你的方法能跑赢这个只有几十行配置代码的“傻瓜式”基准。如果连这都跑不赢，那么那些复杂度就只是在浪费 GPU 而已。

正如作者所言：“我们不是在否定技巧的价值，而是主张在通过实证确认其有效性之前，不要默认它们是必须的。”

极简RL新范式：一半算力刷新1.5B模型推理SOTA

0核心方法：回归本质的“极简配方”

1实验论证：以简驭繁的胜利

1. DeepSeek 赛场的“降维打击”

2. Nemotron 赛场的“稳健发挥”

2为什么“标准技巧”反而有毒？

陷阱一：显式长度惩罚（Overlong Penalty）

陷阱二：鲁棒验证器（Robust Verifier）

3总结与展望

Java Web 点播系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

Protel99SE安装教程：工业控制项目入门必看指南

无源蜂鸣器电磁干扰抑制电路设计技巧

这款水洗轻智能马桶，能让「全民洗起来」吗？

适用于智能眼镜的VHDL数字时钟设计：核心要点解析

快速理解开关式LED驱动电路恒流原理