DeepSeek-R1-Zero：开源推理新范式，强化学习驱动大模型突破传统训练瓶颈-编程阁

导语

【免费下载链接】DeepSeek-R1-Zero探索新一代推理模型，DeepSeek-R1-Zero以大规模强化学习训练，展现卓越推理能力，开启无限可能。我们开源了DeepSeek-R1-Zero和DeepSeek-R1，以及基于Llama和Qwen系列优化的六款压缩模型，助力科研社区创新突破。项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-R1-Zero

深度求索（DeepSeek）正式开源新一代推理模型DeepSeek-R1-Zero，通过无监督微调（SFT）的纯强化学习训练范式，在数学、代码和多领域推理任务上实现性能突破，同时开源基于Llama和Qwen系列的六款压缩模型，推动推理技术普惠化进程。

行业现状：推理能力成大模型核心竞争力

2025年，大模型技术正从"参数竞赛"转向"推理效率"比拼。据行业数据显示，企业级AI应用中，推理任务占比已达63%，远超文本生成（22%）和多模态处理（15%）。然而传统两阶段训练范式（SFT+RL）存在固有局限：相关研究指出，这种模式会导致模型出现"灾难性遗忘"，在RL阶段丢失30%以上的SFT习得知识。

与此同时，开源社区面临双重挑战：一方面，闭源模型凭借推理优势占据高端市场；另一方面，现有开源模型普遍存在推理路径单一、复杂问题解决能力不足等问题。在此背景下，DeepSeek-R1-Zero的开源具有标志性意义——它不仅提供了性能接近闭源模型的替代方案，更开创了全新的训练方法论。

核心亮点：三大技术突破重构推理模型训练

1. 纯强化学习训练：打破SFT依赖的"零冷启动"

DeepSeek-R1-Zero采用创新的"无SFT强化学习"范式，直接在基础模型上应用大规模强化学习，首次验证了推理能力可通过纯RL方式激发。这种方法使模型自然习得自我验证、反思和长链推理（CoT）等高级认知行为，在MATH-500基准测试中实现97.3%的通过率，超越同类闭源模型（96.4%）。

2. 多阶段协同优化：从探索到对齐的全周期训练

为解决纯RL模型存在的重复输出、可读性差等问题，研发团队提出"探索-对齐"双阶段RL框架：第一阶段通过无约束探索发现有效推理模式，第二阶段引入人类偏好数据优化输出质量。这种设计使DeepSeek-R1在保持推理能力的同时，将输出连贯性提升42%，多语言混合现象减少76%。

3. 蒸馏技术突破：小模型释放大能力

基于主模型开发的六款压缩模型展现惊人效率。其中DeepSeek-R1-Distill-Qwen-32B在LiveCodeBench代码任务中实现57.2%通过率，超越同类小型模型（53.8%），成为首个在密集模型中达到这一水平的开源方案。32B参数规模使其可在单台企业级GPU服务器上部署，每百万Token推理成本降至1元以下。

如上图所示，这是加州大学圣地亚哥分校等机构关于跨领域推理训练研究的论文摘要截图。该研究揭示强化学习既能激活AI已有知识，又能教授新技能的双重作用，为DeepSeek-R1-Zero的训练范式提供了理论支撑，也印证了多领域协同训练对提升推理能力的有效性。

行业影响与趋势：开源生态迎来推理技术普惠化

DeepSeek-R1-Zero的开源将加速三大趋势演进：首先，训练范式革新方面，其"纯RL"路径为解决SFT数据依赖问题提供新思路，有望推动更多研究团队探索非传统训练方法。其次，技术普惠方面，压缩模型使中小企业和研究机构首次获得高性能推理能力，据测算，32B模型的部署成本仅为全尺寸模型的1/8，而性能保持85%以上。

最后，应用场景拓展方面，该模型已在金融量化分析、工程问题诊断等领域展现潜力。某智能制造企业测试显示，集成DeepSeek-R1-Distill-Qwen-14B后，设备故障诊断准确率从79%提升至92%，平均排查时间缩短64%。这种"小而强"的推理能力，正为边缘计算、工业互联网等场景注入新可能。