DeepSeek 模型技术之旅：从 V3 到 V3.2-编程阁

V3.2-Speciale 的表现似乎已经达到了谷歌新款 Gemini 3.0 Pro 的水平，非常值得深入研究。

DeepSeek 团队延续了发布 DeepSeek V3 时的传统，再次在一个主要的节假日周末发布了他们的新旗舰模型。

鉴于 DeepSeek V3.2 展现出的卓越性能（达到 GPT-5 和 Gemini 3.0 Pro 水平），且作为一个开放权重的模型，它绝对值得我们仔细审视。V3.2-Speciale 本质上与 V3.2-Thinking 是同一个模型，但它采用了更多的“推理扩展（Inference Scaling）”（这也是我《Build A Reasoning Model (From Scratch)》一书第4、5章的主题）。

我在《大语言模型架构大比拼（The Big LLM Architecture Comparison）》一文的开头就介绍过其前身 DeepSeek V3，并在随后的几个月里随着新架构的发布不断更新该文章。

原本，刚和家人过完感恩节假期的我，只打算在那篇文章中增加一个章节来简单介绍这次发布的 DeepSeek V3.2。但我很快意识到，这次发布包含太多有趣的信息，仅仅一个章节无法涵盖，所以我决定单独写这篇长文来详细拆解。

从他们的技术报告中我们可以学到很多东西，让我们开始吧！

1. DeepSeek 的发布时间线

虽然 DeepSeek V3 在 2024 年 12 月刚发布时并没有立刻大火，但随后的 DeepSeek R1 推理模型（基于完全相同的架构，以 DeepSeek V3 为基座）帮助 DeepSeek 跻身最受欢迎的开放权重模型之列，并成为 OpenAI、Google、xAI 和 Anthropic 等专有模型的有力竞争者。

DeepSeek 自去年以来的发布时间线。主要模型以红色标出。

需要澄清的是，我与 DeepSeek 团队没有任何关联，也不曾与他们交流过；这里的所有内容均基于公开信息。据我所知，他们目前已经换回使用 NVIDIA 芯片了。

此外，他们并非毫无动作。今年陆续有一些小型发布，例如 DeepSeek V3.1 和 V3.2-Exp：

DeepSeek V3(2024年12月26日)
DeepSeek R1(2025年1月20日)
DeepSeek V3-0324(2025年3月24日)
DeepSeek Prover-V1(2025年4月30日)
DeepSeek R1-0528(2025年5月28日)
DeepSeek V3.1(2025年8月21日)
DeepSeek V3.2-Exp(2025年9月29日)
DeepSeek OCR(2025年10月20日)
DeepSeekMath V2(2025年11月27日)
DeepSeek V3.2(2025年12月1日)

正如我在 9 月份预测的那样，DeepSeek V3.2-Exp 的发布旨在为生态系统和推理基础设施做好准备，以托管刚刚发布的 V3.2 模型。

V3.2-Exp 和 V3.2 使用了一种非标准的稀疏注意力（Sparse Attention）变体，这需要定制代码支持，我们稍后会详细讨论这一机制。

2. 混合模型 vs. 专用推理模型

在深入探讨模型细节之前，有必要先讨论一下整体的模型类型。

最初，DeepSeek V3 作为基座模型（Base Model）发布，而 DeepSeek R1 则通过额外的后训练（Post-training）被开发为一个专用的推理模型。下图总结了这一过程：

DeepSeek R1 训练流程概览。

值得注意的是，DeepSeek V3 是基座模型，而 DeepSeek R1 是专用的推理模型。

与 DeepSeek 并行，其他团队也发布了许多非常强大的开放权重推理模型。今年最强的开放权重模型之一是Qwen3。

最初，Qwen3 是作为混合推理模型发布的，这意味着用户可以在同一个模型中通过 Tokenizer 添加/省略<think></think>标签来在“推理模式”和“非推理模式”之间切换。

今年发布的一些推理模型和混合模型的时间线。

此后，各 LLM 团队发布了（有时甚至反复横跳于）专用推理模型和“指令/推理”二合一的混合模型。

例如，Qwen3 最初是混合模型，但后来 Qwen 团队分别发布了独立的指令（Instruct）和推理（Reasoning）模型，因为这样开发更简单，且在各自的用例中表现更好。

而像 OpenAI 的 gpt-oss 这样的模型只有混合变体，用户可以通过系统提示词（System Prompt）选择推理强度（我怀疑这与 GPT-5 和 GPT-5.1 的处理方式类似）。

DeepSeek 似乎反其道而行之，从专用推理模型 (R1) 转向了混合模型 (V3.1 和 V3.2)。但我怀疑 R1 主要是一个研究项目，旨在开发推理方法并打造当时最好的推理模型。V3.2 的发布可能更侧重于为不同用例开发通用的整体模型。（在这里，R1 更像是一个测试平台或原型机）。

我也怀疑，虽然 DeepSeek 团队开发了具有推理能力的 V3.1 和 V3.2，但他们可能仍在研发专用的 R2 模型。

3. 从 DeepSeek V3 到 V3.1

在详细讨论新的 DeepSeek V3.2 之前，先概述一下从 V3 到 V3.1 的主要变化会很有帮助。

3.1 DeepSeek V3 概览与多头潜在注意力 (MLA)

关于 DeepSeek V3 和 R1，我已经在其他几篇文章中详细讨论过。

简而言之，DeepSeek V3 是一个基座模型，它采用了两个值得注意的架构特点：混合专家模型 (MoE)和 **多头潜在注意力 (MLA)**。

我相信大家对 MoE 已经很熟悉了，所以这里跳过介绍。另一个亮点是 MLA 的使用。MLA 被用于 DeepSeek V3 和 R1 中，提供了一种节省内存的策略，特别适合与 KV 缓存（KV Cache）配合使用。

MLA 的核心思想是在将键（Key）和值（Value）张量存入 KV 缓存之前，将其压缩到低维空间。在推理时，这些压缩的张量在使用前会被投影回原始空间（如下图所示）。这虽然增加了一次矩阵乘法，但减少了内存使用。

DeepSeek V3/R1 中的多头潜在注意力 (MLA)。

（注：查询 Query 在训练期间也会被压缩，但在推理时不会。）

这需要后续的上投影（Up-projection）回到原始的键/值空间，但总体上提高了效率（类比一下，你可以将其想象为 LoRA 中的降维和升维投影）。

3.2 DeepSeek R1 概览与带可验证奖励的强化学习 (RLVR)

DeepSeek R1 使用与 DeepSeek V3 相同的架构。区别在于训练配方。也就是说，以 DeepSeek V3 为基座模型，DeepSeek R1 专注于使用带可验证奖励的强化学习 (RLVR)方法来提高模型的推理能力。

RLVR 的核心思想是让模型从可以通过符号或程序验证的响应中学习，例如数学和代码（当然，这也可以扩展到这两个领域之外）。

LLM 训练中强化学习设置的比较。

传统的带 PPO 的 RLHF 使用奖励模型（基于人类偏好训练）和评论家（Critic/Value Model）来指导学习。GRPO 算法（Group Relative Policy Optimization，群体相对策略优化）本质上是 PPO 的一个简化变体，它去掉了评论家模型。而带 GRPO 的 RLVR 更进一步，去掉了奖励模型，转而依赖来自计算器或编译器等符号工具的可验证奖励。

如果你对 RLVR 及其背后的数学细节感兴趣，可以在我的文章《LLM 推理的强化学习现状》中找到更多信息。

3.3 DeepSeek R1-0528 版本升级

正如 DeepSeek 团队自己所述，DeepSeek R1-0528 基本上是一个“小版本升级”。

架构与 DeepSeek V3/R1 保持一致，改进主要在训练方面，使其在当时与 OpenAI o3 和 Gemini 2.5 Pro 达到同等水平。遗憾的是，DeepSeek 团队没有发布任何具体信息描述这是如何实现的；然而，他们表示这部分源于对其后训练（Post-training）流程的优化。此外，根据已分享的信息，我认为托管版本的模型在推理时可能使用了更多的计算资源（即更长的推理时间）。

3.4 DeepSeek V3.1 混合推理

DeepSeek V3.1 是一个兼具通用聊天（指令）和推理能力的混合模型。也就是说，不再是两个独立的模型，而是现在只有一个模型，用户可以通过聊天提示模板切换模式（类似于最初的 Qwen3 模型）。

DeepSeek V3.1 基于 DeepSeek V3.1-Base，而后者又基于 DeepSeek V3。它们共享相同的架构。

4. DeepSeek V3.2-Exp 与稀疏注意力 (Sparse Attention)

DeepSeek V3.2-Exp (2025年9月) 开始变得有趣了。

起初，DeepSeek V3.2-Exp 并没有在基准测试中拔得头筹，这就是为什么该模型发布时没有引起太多轰动。然而，正如我在 9 月份推测的那样，这很可能是一个早期的实验性版本，目的是让基础设施（特别是推理和部署工具）为更大的发布做好准备，因为 DeepSeek V3.2-Exp 中有一些架构变化。真正的大版本是 DeepSeek V3.2（注意不是 V4），我们稍后会讲到。

那么，DeepSeek V3.2-Exp 有什么新东西？首先，V3.2-Exp 是基于 DeepSeek V3.1-Terminus 作为基座模型训练的。

什么是DeepSeek V3.1-Terminus？它只是对上一节提到的 DeepSeek V3.1 检查点（Checkpoint）的一个小改进。

技术报告指出：

DeepSeek-V3.2-Exp，一个实验性的稀疏注意力模型，通过持续训练为 DeepSeek-V3.1-Terminus 配备了DeepSeek 稀疏注意力(DSA)。
借助 DSA（一种由闪电索引器驱动的细粒度稀疏注意力机制），DeepSeek-V3.2-Exp 在训练和推理效率上都实现了显著提升，尤其是在长上下文场景中。

如上所述，这里的主要创新是他们在进行进一步训练之前，向 DeepSeek V3.1-Terminus 添加了DeepSeek 稀疏注意力 (DSA)机制。

DSA 由 (1)闪电索引器 (Lightning Indexer)和 (2)Token 选择器 (Token Selector)组成，目标是选择性地减少上下文以提高效率。

为了解释它是如何工作的，让我们从滑动窗口注意力 (Sliding-window Attention)开始。滑动窗口注意力是一种技术（最近被 Gemma 3 和 Olmo 3 使用），它将注意力窗口限制在一个固定的大小，如下图所示。

在滑动窗口注意力中，当前的查询 Token 不会关注所有之前的 Token，而只是其中的一个子集。

DSA 基于与滑动窗口注意力相同的理念：只能关注过去 Token 的一个子集。但是，DSA 不是通过固定宽度的滑动窗口来选择 Token，而是通过索引器和 Token 选择器来决定可以关注哪些过去的 Token。换句话说，被关注的 Token 更加“随机”，如下图所示。

在 DSA 中，当前 Token 可以关注过去选定的少量 Token，而不是像常规因果注意力那样关注所有 Token。

然而，虽然我在上面说了“随机”，但选择哪些过去 Token 的模式实际上并非随机，而是习得的。

在实践中，DSA 使用其所谓的“闪电索引器”基于所有之前的 Token 为每个新的查询 Token (Query Token) 计算相关性分数。为此，闪电索引器使用 DeepSeek 多头潜在注意力 (MLA) 中的压缩 Token 表示，并计算与其他 Token 的相似度。

相似度分数基本上是查询向量和键向量之间的缩放点积（Scaled Dot Product），并通过 ReLU 函数处理。如果你对数学细节感兴趣，这个闪电索引器相似度分数的方程（取自论文）如下所示：

这里，是一个习得的每头（per-head）加权系数，决定了每个索引器头对最终相似度分数的贡献。指的是查询向量，指的是键向量。下标含义如下：

：当前查询 Token 的位置；
：序列中先前 Token 的位置；
：不同索引器头的索引（上图为了简化只显示了一个头）。

你可能会注意到索引器只针对查询，而不针对键。这是因为模型只需要决定每个新查询应该考虑哪些过去的 Token。键已经被压缩并存储在 KV 缓存中，因此索引器不需要再次对它们进行评分或压缩。

这里的 ReLU 函数，由于，会将负的点积位置归零，这理论上可以实现稀疏性，但由于存在对不同头的求和，索引器分数实际上不太可能完全为 0。稀疏性主要来自于单独的Token 选择器。

单独的 Token 选择器只保留少量高分 Token（例如，top-k 位置），并构建一个稀疏注意力掩码（Mask），屏蔽掉未包含在选定子集中的其他 Token。（注意：top-k 中的，不要与方程中用于键的混淆，这是一个超参数，在 DeepSeek 团队分享的代码中设置为 2048）。

下图以流程图的形式展示了整个过程。

DeepSeek V3.2 稀疏注意力机制的视觉摘要。

总而言之，索引器和 Token 选择器导致每个 Token 只关注模型习得的认为最相关的少数过去 Token，而不是所有 Token 或固定的局部窗口。

这样做的目标不是为了超越 DeepSeek V3.1-Terminus 的性能，而是为了在受益于效率提升的同时，减少（由于稀疏注意力机制导致的）性能下降。

总体而言，DSA 将注意力机制的计算复杂度从二次方（其中是序列长度）降低到了线性（其中是选定 Token 的数量）。

5. DeepSeekMath V2 与自验证及自完善

讨论完 DeepSeek V3.2-Exp，我们越来越接近本文的主题：DeepSeek V3.2。但在那之前，还有一块拼图需要讨论。

在 2025 年 11 月 27 日（美国感恩节），即 DeepSeek V3.2 发布前 4 天，DeepSeek 团队发布了基于 DeepSeek V3.2-Exp-Base 的DeepSeekMath V2。

这个模型是专门为数学开发的，并在多个数学竞赛中获得了金牌级别的成绩。本质上，我们可以将其视为 DeepSeek V3.2 的一个概念验证（Proof of Concept）模型，它引入了另一项重要技术。

关键点在于，推理模型（如 DeepSeek R1 等）是通过外部验证器训练的，模型学会了在得出最终答案之前自己写解释。然而，解释可能是错误的。正如 DeepSeek 团队简洁指出的那样，常规 RLVR 存在缺陷：

[…] 正确的答案并不能保证正确的推理。 […] 一个模型可能通过错误的逻辑或幸运的错误得出正确的答案。

他们旨在解决的 DeepSeek R1 RLVR 方法的另一个局限性是：

[…] 许多数学任务（如定理证明）需要严格的一步步推导而不是数值答案，这使得最终答案奖励并不适用。

因此，为了改进上述两个缺点，在这篇论文中，他们训练了两个模型：

一个用于定理证明的基于 LLM 的验证器（Verifier）。
主模型，一个证明生成器（Prover），它使用基于 LLM 的验证器作为奖励模型（代替符号验证器）。

除了这种通过 LLM 进行的自验证（Self-verification）外，他们还使用了自完善（Self-refinement）（在我《Build a Reasoning Model》一书即将推出的第 5 章中有所涉及），让 LLM 迭代地改进自己的答案。

5.1 自验证 (Self-Verification)

对中间步骤进行 LLM 评分并不新鲜。有一整条关于所谓“过程奖励模型（Process Reward Models）”的研究路线专注于此。例如《Solving Math Word Problems With Process- and Outcome-based Feedback》(2022) 或《Let’s Verify Step by Step》(2023) 等等。

过程奖励模型的挑战在于，很难检查中间奖励是否正确，而且也容易导致“奖励黑客（Reward Hacking）”现象。在 2025 年 1 月的 DeepSeek R1 论文中，他们没有使用过程奖励模型，因为他们发现：

在我们的实验中，与其在大规模强化学习过程中引入的额外计算开销相比，它的优势是有限的。

在本文中，他们以自验证的形式成功地重新审视了这一点。动机是，即使没有参考答案，人类在阅读证明并发现问题时也能进行自我纠正。

因此，为了开发一个更好的撰写数学证明的模型（下图中的 LLM 1），他们开发了一个证明验证器（下图中的 LLM 2），它可以作为“LLM-as-a-judge”来对证明生成器（LLM 1）的输出进行评分。

图 12：通用的数学证明生成器 (LLM 1) 和验证器 (LLM 2) 设置。

验证器 LLM (LLM 2) 接收一个评分标准（Rubric）来对生成的证明进行评分，分数如下：

1 分：完整且严格的证明，所有逻辑步骤都有清晰的论证；
0.5 分：总体逻辑合理，但有轻微错误或细节遗漏的证明；
0 分：包含致命逻辑错误或关键缺失的根本性缺陷证明。

对于证明验证器模型，他们从DeepSeek V3.2-Exp-SFT开始，这是一个他们在 DeepSeek V3.2-Exp 基础上通过在推理数据（数学和代码）上进行监督微调（SFT）创建的模型。然后，他们使用强化学习进一步训练该模型，使用格式奖励（检查解决方案是否符合预期格式）和基于预测分数与实际分数（由人类数学专家标注）接近程度的分数奖励。

证明验证器 (LLM 2) 的目标是检查生成的证明 (LLM 1)，但谁来检查证明验证器呢？为了使证明验证器更加鲁棒并防止其产生幻觉问题，他们开发了第三个 LLM，一个元验证器（Meta-Verifier）。

图 13：元验证器 (LLM 3) 检查验证器 (LLM 2) 是否正确验证了生成器 (LLM 1)。

元验证器 (LLM 3) 也是使用强化学习开发的，类似于 LLM 2。虽然使用元验证器不是必须的，但 DeepSeek 团队报告称：

经元验证器评估，验证器的证明分析的平均质量得分从 0.85 提高到了 0.96，同时保持了相同的证明评分预测准确性。

这实际上是一个非常有趣的设置。如果你熟悉生成对抗网络 (GAN)，你可能会看到类比。例如，证明验证器（把它想象成 GAN 的判别器）改进了证明生成器，而证明生成器生成更好的证明，进一步推动证明验证器的提升。

元分数（Meta Score）用于验证器 (LLM 2) 和生成器 (LLM 1) 的训练期间。它不用于推理时的自完善循环，我们将在下一节讨论。

5.2 自完善 (Self-Refinement)

在前一节中，我们讨论了自验证，即分析解决方案的质量。这样做的目的是为了实现自完善，这意味着 LLM 可以根据反馈采取行动并修改其答案。

传统上，在自完善（这是一种成熟且流行的推理扩展技术）中，我们会使用同一个 LLM 来生成解决方案并在完善之前对其进行验证。换句话说，在前面的图 12 和 13 中，LLM 1 和 LLM 2 将是同一个 LLM。

因此，传统的自完善流程如下所示：

图 14：经典的自完善迭代，我们使用同一个 LLM 生成初始响应（Output 1）、评估（Eval）和完善后的答案（Output 2）。

然而，DeepSeek 团队观察到在实践中使用同一个 LLM 进行生成和验证存在一个关键问题：

当被提示一次性生成并分析自己的证明时，生成器往往会声称正确，即使外部验证器很容易发现缺陷。

换句话说，虽然生成器可以根据外部反馈完善证明，但在评估自己的工作时，它无法像专用验证器那样严格。

逻辑上的推论是，你会认为他们使用独立的证明生成器 (LLM 1) 和证明验证器 (LLM 2)。因此，这里使用的自完善循环变得类似于下图所示。（注意我们省略了 LLM 3，它仅在验证器 LLM 2 的开发过程中使用）。

图 15：使用独立验证器 LLM (LLM 2) 的自完善。

然而，在实践中，与图 15 不同的是，DeepSeek 团队使用同一个模型作为生成器和验证器 LLM，就像图 14 中的经典自完善循环一样：

“所有实验都使用单一模型，即我们的最终证明生成器，它同时执行证明生成和验证。”

换句话说，独立的验证器对于训练至关重要（为了改进生成器），但一旦生成器足够强大，在稍后的推理阶段就不再使用（或不需要）它了。与朴素的单模型自完善的关键区别在于，最终的证明生成器是在更强的验证器和元验证器的指导下训练出来的，因此它学会了将这些评分标准应用于自己的输出。

此外，在推理过程中使用这种“二合一”的 DeepSeekMath V2 验证器在资源和成本方面也是有益的，因为它比运行第二个 LLM 进行证明验证增加了更少的复杂性和计算需求。

回到图 14 和 15 中展示的一般自完善概念，这些图展示了 2 次迭代的自完善（初始答案和完善后的答案）。当然，我们可以向此过程添加更多迭代。这是一个经典的推理扩展权衡：我们添加的迭代越多，生成答案的成本就越高，但整体准确性也会越高。

在论文中，DeepSeek 团队使用了多达 8 次迭代，而且看起来准确性尚未饱和。

额外的自完善迭代提高了准确性。DeepSeekMath V2 论文的注释图。

Best@32 准确性多数投票方法也被称为“自洽性（Self-consistency）”。

6. DeepSeek V3.2 (2025年12月1日)

我们之所以在上一节花这么多时间讨论 DeepSeekMath V2，是因为：a) 它是一个非常有趣的概念验证，通过自验证和自完善技术推动了 RLVR 的理念；b) 这些技术同样被用于 DeepSeek V3.2。

但在我们讨论这一部分之前，先来看看 DeepSeek V3.2 的总体概况。

这个模型之所以重要，是因为它在与当前旗舰模型的对比中表现非常出色。

DeepSeek V3.2 与专有旗舰模型之间的基准测试比较。这是 DeepSeek V3.2 报告中的注释图。

与之前的几个 DeepSeek 模型类似，V3.2 也附带了一份不错的技术报告，我将在接下来的章节中讨论。

6.1 DeepSeek V3.2 架构

这个模型的主要动力当然是提高整体模型性能。例如，像 DeepSeekMath V2 一样，它在数学基准测试中达到了金牌水平。然而，该模型在训练时也考虑了工具使用（Tool-use），并在其他任务（例如代码和代理任务）上也表现良好。

同时，DeepSeek 团队将计算效率作为一个驱动因素。这就是为什么他们将 V2 和 V3 中的多头潜在注意力 (MLA) 机制与他们在 V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 机制结合使用。

事实上，论文指出“DeepSeek-V3.2 使用与 DeepSeek-V3.2-Exp 完全相同的架构”，正如我们在前面章节所讨论的那样。

DeepSeek V3.2 架构。

正如我之前提到的，DeepSeek V3.2-Exp 的发布很可能是为了让生态系统和推理基础设施准备好托管刚刚发布的 V3.2 模型。

得益于 DeepSeek 稀疏注意力 (DSA) 的推理成本节省。DeepSeek V3.2 报告的注释图。

有趣的是，正如上面的论文截图所示，DeepSeek 团队已经换回使用 NVIDIA 芯片（据称他们之前曾尝试在华为芯片上进行模型训练）。

由于架构与 DeepSeek V3.2-Exp 相同，有趣的细节在于训练方法，我们将在接下来的章节中讨论。

6.2 强化学习更新

总体而言，DeepSeek 团队采用了类似 DeepSeek R1 的使用群体相对策略优化 (GRPO) 算法的 RLVR 流程。然而，有一些有趣的更新值得讨论。

最初，DeepSeek R1 使用：

格式奖励（确保答案格式正确）；
语言一致性奖励（确保模型不会在回复中交替使用不同语言）；
以及主要的验证器奖励（在数学或代码问题中，答案是否正确）。

对于 DeepSeek V3.2，他们更改了奖励机制：

对于推理和代理任务，我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于一般任务，我们采用生成式奖励模型，其中每个提示词都有自己的评估标准。

例如，他们移除了格式奖励，但为代理任务添加了长度惩罚。然后，对于没有符号验证器（数学）或代码解释器来验证答案的一般任务，他们使用奖励模型（另一个训练用于输出奖励分数的 LLM）。

所以，听起来这个流程不再是像 DeepSeek R1 那样纯粹的基于验证器的 RLVR，而是 RLVR（用于可验证领域）和更标准的“LLM-as-a-judge”奖励建模（用于其他所有领域）的混合体。

对于数学领域，他们指出还“整合了 DeepSeekMath-V2 的数据集和奖励方法”，这正是我们在本文前面讨论过的内容。

6.3 GRPO 更新

关于 GRPO 本身（RLVR 流程中的学习算法），自 DeepSeek R1 论文中的原始版本以来，他们也做了一些更改。

在过去几个月里，有数十篇论文提出了对 GRPO 的修改建议，以提高其稳定性和效率。我在今年早些时候的文章中写过两个流行的修改：DAPO和Dr. GRPO。

不深入 GRPO 的数学细节，简而言之，DAPO 通过非对称裁剪、动态采样、Token 级损失和显式的基于长度的奖励整形来修改 GRPO。Dr. GRPO 则更改 GRPO 目标本身，移除了长度和标准差归一化。

最近的 Olmo 3 论文也采用了类似的更改。

DeepSeek V3.2 中的 GRPO 修改稍微温和一些，总结如下：

特定领域的 KL 强度（数学领域为零）：DeepSeek V3.2 没有像 DAPO 和 Dr. GRPO 那样总是丢弃 KL 散度，而是在目标中保留 KL 项，但针对每个领域调整其权重。不过，他们也注意到，对于数学来说，非常弱甚至为零的 KL 通常效果最好。（但不是完全移除它，而是变成了一个超参数）。
无偏 KL 估计：如上所述，DeepSeek V3.2 没有移除 KL 惩罚。除了将其视为调节旋钮外，他们还提出了一个修复 GRPO 中 KL 惩罚估计的方法，即用与主损失相同的重要性比率（Importance Ratio）对 KL 项进行加权，这样 KL 梯度实际上匹配了样本来自旧策略而不是当前策略的事实。
异策略序列掩码 (Off-policy sequence masking)：当他们在许多梯度步骤中重复使用 rollout 数据（rollout 是模型生成的完整序列的术语）时，DeepSeek V3.2 会测量当前策略在每个完整答案上偏离 rollout 策略的程度，并简单地丢弃那些既具有负优势又“过度偏离策略 (too off-policy)”的序列。这防止了模型从过度偏离或陈旧的数据中学习。
保持 MoE 模型的路由：对于混合专家骨干网，他们记录了在 rollout 期间激活了哪些专家，并在训练期间强制执行相同的路由模式，以便梯度更新仅针对那些产生采样答案的专家。
保持 Top-p/Top-k 的采样掩码：当 rollout 使用 top-p or top-k 采样时，DeepSeek V3.2 存储选择掩码并在计算 GRPO 损失和 KL 时重新应用它，以便训练时的动作空间与采样时实际可用的空间相匹配。
保留原始 GRPO 优势归一化：Dr. GRPO 表明 GRPO 的长度和每组标准差归一化项会使优化偏向于过长的错误答案，并过分强调非常简单或非常难的问题。Dr. GRPO 通过移除这两项并回归到无偏的 PPO 风格目标来修复此问题。相比之下，DAPO 转向 Token 级损失，并改变了长短答案的加权方式。然而，DeepSeek V3.2保留了原始的 GRPO 归一化，并专注于其他修复，例如上述内容。

总的来说，DeepSeek V3.2 比最近的一些模型更接近原始的 GRPO 算法，但添加了一些逻辑调整。

6.4 DeepSeek V3.2-Speciale 与扩展思考 (Extended Thinking)

DeepSeek V3.2 还有一个极端的、扩展思考的变体，称为DeepSeek V3.2-Speciale，它在 RL 阶段仅在推理数据上训练（更类似于 DeepSeek R1）。除了仅在推理数据上训练外，他们还减少了 RL 期间的长度惩罚，允许模型输出更长的响应。

生成更长的响应是推理扩展 (Inference Scaling)的一种形式，通过增加长度使响应变得更昂贵，以此换取更好的结果。

“扩展思考”的 Speciale 模型实现了更高的准确性，但也生成了更多的 Token。

7. 结论

在这篇文章中，我没有涵盖 DeepSeek V3.2 训练方法的所有细节，但我希望通过与以前的 DeepSeek 模型的比较，能帮助阐明其主要观点和创新。

简而言之，有趣的要点是：

DeepSeek V3.2 使用了与 DeepSeek V3 以来所有前代产品类似的架构；
主要的架构调整是他们添加了来自 DeepSeek V3.2-Exp 的稀疏注意力机制 (DSA)以提高效率；
为了提高数学性能，他们采用了来自 DeepSeekMath V2 的自验证方法；
训练流程有几项改进，例如 GRPO 稳定性更新（注：论文还深入探讨了蒸馏、长上下文训练、类似 gpt-oss 的工具使用集成等其他方面，我们在本文中没有涵盖）。

无论 DeepSeek 模型相对于其他较小的开放权重模型或 GPT-5.1、Gemini 3.0 Pro 等专有模型的市场份额如何，有一点是肯定的：DeepSeek 的发布总是很有趣，而且我们可以从随开放权重模型检查点一起发布的技术报告中学到很多东西。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

为什么你的Open-AutoGLM在Mac上跑不起来？这7个常见错误必须避开

DeepSeek 模型技术之旅：从 V3 到 V3.2

1. DeepSeek 的发布时间线

2. 混合模型 vs. 专用推理模型