The State of Reinforcement Learning for LLM Reasoning

本月发生了很多事情，特别是像 GPT-4.5 和 Llama 4 这样的新旗舰模型的发布。但你可能注意到，人们对这些发布的反应相对平淡。为什么？一个原因可能是 GPT-4.5 和 Llama 4 仍然是常规模型，这意味着它们在训练时没有针对推理进行明确的强化学习。

与此同时，像 xAI 和 Anthropic 这样的竞争对手已经在他们的模型中增加了更多的推理能力和特性。例如，xAI Grok 和 Anthropic Claude 的接口现在都为某些模型提供了一个“思考”（或“扩展思考”）按钮，可以切换到推理功能。

无论如何，对 GPT-4.5 和 Llama 4（非推理）模型反应平淡表明，我们可能正在接近仅靠扩展模型规模和数据所能达到的极限。

然而，OpenAI 最近发布的 o3 推理模型表明：在战略性地投入计算资源，特别是通过针对推理任务量身定制的强化学习方法时，仍有相当大的改进空间。（根据 OpenAI 员工在最近直播中的说法，o3 使用的训练计算量是 o1 的 10 倍。）

!来源：OpenAI 直播 (https://openai.com/live/)，2025年4月16日

虽然仅靠推理并非万能，但它（到目前为止）确实可靠地提高了模型在挑战性任务上的准确性和解决问题的能力。我预计以推理为中心的后训练将成为未来大语言模型（LLM）pipeline的标准实践。

因此，在本文中，让我们探讨通过强化学习进行推理的最新进展。

!本文重点关注用于开发和改进推理模型的强化学习训练方法。

由于本文篇幅较长，下面提供了一个目录概览。

- 理解推理模型
- RLHF 基础：一切的起点
- PPO 简介：强化学习的主力算法
- 强化学习算法：从 PPO 到 GRPO
- 强化学习奖励建模：从 RLHF 到 RLVR
- DeepSeek-R1 推理模型的训练方式
- 近期关于训练推理模型的强化学习论文的经验教训
- 值得注意的关于训练推理模型的研究论文

提示：如果您已经熟悉推理基础、强化学习（RL）、近端策略优化（PPO）和组相对策略优化（GRPO），请随时直接跳到“近期关于训练推理模型的强化学习论文的经验教训”部分，该部分包含了近期推理研究论文中有趣见解的总结。

理解推理模型

一个显而易见的核心问题当然是推理的定义。简而言之，推理是指让 LLM 更好地处理复杂任务的推断和训练技术。

为了更详细地说明这是如何实现的，我想将推理定义如下：

在 LLM 的背景下，推理是指模型在提供最终答案之前产生中间步骤的能力。这个过程通常被称为思维链（Chain-of-Thought, CoT）推理。在 CoT 推理中，LLM 明确生成一系列结构化的陈述或计算，以说明其如何得出结论。

下面是一个图示以及定义。

!一个简化的图示，说明 LLM 如何处理多步骤推理任务。模型不仅仅是回忆一个事实，而是需要结合几个中间推理步骤来得出正确的结论。根据实现方式的不同，中间推理步骤可能会也可能不会显示给用户。

可以通过两种方式提高 LLM 的推理能力，这一点在OpenAI博客文章中的一个图表中得到了很好的说明：

!可以通过增加训练计算量或测试时计算量来提高准确性，其中测试时计算量等同于推理时计算和推理时扩展。来源：注释图来自 https://openai.com/index/learning-to-reason-with-llms/

RLHF 基础：一切的起点

用于构建和改进推理模型的强化学习（RL）训练方法或多或少与用于开发和对齐常规 LLM 的基于人类反馈的强化学习（Reinforcement Learning with Human Feedback, RLHF）方法有关。因此，在讨论基于 RL 的、针对推理的特定修改之前，我想先简要回顾一下 RLHF 的工作原理。

常规 LLM 通常经历一个三步训练过程：

1. 预训练
2. 监督微调 (Supervised Fine-tuning, SFT)
3. 对齐（通常通过 RLHF）

“原始”的 LLM 对齐方法是 RLHF，这是在 InstructGPT 论文之后开发 LLM 的标准方法之一，该论文描述了用于开发第一个 ChatGPT 模型的配方。

RLHF 的最初目标是使 LLM 与人类偏好对齐。例如，假设你多次使用一个 LLM，该 LLM 为给定的提示生成多个答案。RLHF 会引导 LLM 生成更多你偏好的回答风格。（通常，RLHF 也用于 LLM 的安全性调整：避免分享敏感信息、使用脏话等）

RLHF 管道接收一个预训练模型，并以监督方式对其进行微调。这个微调还不是 RL 部分，主要是作为先决条件。

然后，RLHF 使用一种称为近端策略优化（Proximal Policy Optimization, PPO）的算法进一步对齐 LLM。（请注意，还有其他算法可以替代 PPO；我特别提到 PPO 是因为它最初在 RLHF 中使用，并且至今仍是最流行的算法。）

为简单起见，我们将分三个步骤来看 RLHF 流水线：

- RLHF 步骤 1（先决条件）：对预训练模型进行监督微调（SFT）
- RLHF 步骤 2：创建一个奖励模型
- RLHF 步骤 3：通过近端策略优化（PPO）进行微调

RLHF 步骤 1如下所示，是一个监督微调步骤，用于为后续的 RLHF 微调创建基础模型。

!注释图来自 InstructGPT 论文, https://arxiv.org/abs/2203.02155

在 RLHF 步骤 1 中，我们创建或采样提示（例如从数据库中），并请人类撰写高质量的响应。然后，我们使用这个数据集以监督方式微调预训练的基础模型。这在技术上不属于 RL 训练，而仅仅是一个先决条件。

在 RLHF 步骤 2 中，我们接着使用这个来自监督微调（SFT）的模型来创建一个奖励模型，如下所示。

!注释图来自 InstructGPT 论文, https://arxiv.org/abs/2203.02155

如上图所示，对于每个提示，我们从上一步创建的微调 LLM 生成四个响应。然后，人类标注者根据他们的偏好对这些响应进行排序。虽然这个排序过程很耗时，但可能比为监督微调创建数据集要省力一些。这是因为对响应进行排序可能比编写响应更简单。

在编译了包含这些排序的数据集后，我们可以设计一个奖励模型（Reward Model, RM），该模型为 RLHF 步骤 3 中的后续优化阶段输出一个奖励分数。这里的想法是，奖励模型取代并自动化了劳动密集型的人工排序，使得在大数据集上进行训练成为可能。

这个奖励模型（RM）通常源自上一步监督微调（SFT）中创建的 LLM。为了将 RLHF 步骤 1 中的模型转变为奖励模型，其输出层（下一个词元分类层）被替换为一个回归层，该回归层具有单个输出节点。

RLHF 流水线的第三步是使用奖励模型（RM）来微调来自监督微调（SFT）的上一个模型，如下图所示。

!注释图来自 InstructGPT 论文, https://arxiv.org/abs/2203.02155

在 RLHF 步骤 3-即最后阶段，我们现在使用近端策略优化（PPO），基于我们在 RLHF 步骤 2 中创建的奖励模型所给出的奖励分数来更新 SFT 模型。

PPO 简介：强化学习的主力算法

如前所述，原始的 RLHF 方法使用一种称为近端策略优化（PPO）的强化学习算法。

PPO 的开发是为了提高训练策略（policy）的稳定性和效率。（在强化学习中，“策略”就是我们想要训练的模型；在这种情况下，策略 = LLM。）

PPO 背后的关键思想之一是它限制了策略在每个更新步骤中允许改变的程度。这是通过使用一个截断损失函数（clipped loss function）来实现的，这有助于防止模型进行可能破坏训练稳定性的过大更新。

除此之外，PPO 还在损失中包含了一个 KL 散度（KL divergence）惩罚项。该项将当前策略（正在训练的模型）与原始 SFT 模型进行比较。这鼓励更新保持在合理接近的范围内。其思想是对模型进行偏好调整，而不是完全重新训练。

这就是近端策略优化（Proximal Policy Optimization）中“近端（Proximal）”一词的来源：该算法试图在允许改进的同时，使更新保持在接近现有模型的范围内。并且为了鼓励一些探索，PPO 还增加了一个熵奖励（entropy bonus），鼓励模型在训练期间改变输出。

在接下来的段落中，我想介绍更多术语，以相对较高的层次说明 PPO。尽管如此，其中涉及大量专业术语，因此在继续之前，我尝试在下图中总结了关键术语。

!RLHF 中关键术语的图示。例如，PPO 中涉及多个模型，其中 PPO 是 RLHF 中使用的一种算法（而 RLHF 是最流行的 LLM 对齐方法之一）

下面我将通过伪代码来说明 PPO 的关键步骤。

为了使其更直观，我使用了一个类比：想象你是一位经营小型送餐服务的厨师。你不断尝试新的食谱变体以提高顾客满意度。你的总体目标是根据顾客反馈（奖励）调整你的食谱（策略）。

1. 计算新旧策略的下一个词元概率之比：
ratio = new_policy_prob / old_policy_prob

简而言之，这检查了我们的新食谱与旧食谱有多大不同。

旁注：关于 "new_policy_prob"，我们还没有使用最终更新的策略。我们使用的是策略的当前版本（即我们正在训练过程中的模型）。然而，按照惯例称之为“新”策略。所以，即使你仍在试验，我们按照惯例将你当前的草稿称为“新策略”。

2. 将该比率乘以该行动的好坏程度（称为优势）：
raw_score = ratio * advantage

这里为简单起见，我们可以假设优势（advantage）是基于奖励信号计算的：
advantage = actual_reward - expected_reward

在厨师的类比中，我们可以将优势视为新菜肴的表现如何：
advantage = customer_rating - expected_rating

例如，如果一位顾客给新菜打了 9/10 分，而顾客通常给我们 7/10 分，那么优势就是 +2。

请注意，这是一个简化。实际上这涉及到广义优势估计（Generalized Advantage Estimation, GAE），为了不使文章进一步臃肿，我在此省略了它。然而，需要提及的一个重要细节是，期望奖励是由所谓的“评论家”（critic，有时也称为“价值模型” value model）计算的，而奖励模型计算实际奖励。也就是说，优势计算涉及另外两个模型，通常与我们正在微调的原始模型大小相同。

在类比中，我们可以将这个评论家或价值模型视为我们在上菜给顾客之前请来尝试我们新菜的朋友。我们还请朋友估计顾客会如何评价它（这就是期望奖励）。奖励模型则是实际给出反馈（即实际奖励）的顾客。

3. 计算一个截断分数：
如果新策略变化太大（例如，ratio > 1.2 或 < 0.8），我们按如下方式截断比率：
clipped_ratio = clamp(ratio, 0.8, 1.2)
clipped_score = clipped_ratio * advantage

在类比中，想象一下新食谱得到了一个异常好（或坏）的评价。我们可能很想立即彻底改革整个菜单，但这有风险。所以，我们暂时限制我们的食谱可以改变多少。（例如，也许我们把菜做得辣得多，而那位顾客恰好喜欢吃辣，但这并不意味着其他人都会喜欢。）

4. 然后我们使用原始分数和截断分数中较小（或较大）的一个：

    if advantage >= 0:
        final_score = min(raw_score, clipped_score)
    else: # advantage < 0
        final_score = max(raw_score, clipped_score)

再次强调，这与保持谨慎有关。例如，如果优势为正（新行为更好），我们会限制奖励。这是因为我们不想过度相信一个可能是巧合或运气的好结果。

如果优势为负（新行为更差），我们会限制惩罚。这里的想法类似。也就是说，除非我们非常确定，否则我们不想对一个坏结果反应过度。

简而言之，如果优势为正，我们使用两个分数中较小的那个（以避免过度奖励），如果优势为负，则使用较大的那个（以避免过度惩罚）。

在类比中，这确保了如果一个食谱表现好于预期，除非我们有信心，否则我们不会过度奖励它。如果它表现不佳，除非它持续很差，否则我们不会过度惩罚它。

5. 计算损失：
这个最终分数是我们（在将分数符号翻转以进行最小化后）在训练期间使用梯度下降最大化的目标。此外，我们还添加了一个 KL 惩罚项，其中 β 是惩罚强度的超参数：
loss = -final_score + β * KL(new_policy || reference_policy)

在类比中，我们添加惩罚是为了确保新食谱与我们最初的风格相差不大。这可以防止你每周都“重新发明厨房”。例如，我们不想突然把一家意大利餐厅变成烧烤店。

这部分信息量很大，所以我通过下面的图示，用一个 LLM 背景下的具体数值示例进行了总结。但如果觉得太复杂，请随时跳过；您应该能够顺利理解文章的其余部分。

![](/images/b639cf3a36528648c5d3ff60e2d41b16.png)

我承认我可能在 PPO 的讲解上讲得过于详细了。但是一旦写完，就很难删掉了。希望你们中的一些人会觉得它有用！

下一节将涉及的主要关键点是 PPO 中涉及多个模型：

1. 策略 (Policy) ：即已经通过 SFT 训练并希望进一步对齐的 LLM。
2. 奖励模型 (Reward Model) ：一个经过训练来预测奖励的模型（参见 RLHF 步骤 2）。
3. 评论家 (Critic) ：一个可训练的模型，用于估计奖励。
4. 参考模型 (Reference Model) （原始策略）：我们用它来确保策略不会偏离太远。

顺便说一句，您可能想知道为什么我们既需要奖励模型又需要评论家模型。奖励模型通常在用 PPO 训练策略之前进行训练。它是为了自动化人类评判者的偏好标注，并为策略 LLM 生成的完整响应给出分数。

相比之下，评论家则判断部分响应，我们用它来创建最终的响应。虽然奖励模型通常保持不变，但评论家模型在训练过程中会更新，以更好地估计由奖励模型产生的奖励。

关于 PPO 的更多细节超出了本文的范围，但感兴趣的读者可以在 InstructGPT 论文之前的这四篇论文中找到数学细节：

(1) Mnih 等人（2016）的《深度强化学习的异步方法》介绍了策略梯度方法作为深度学习 RL 中 Q-learning 的替代方案。

(2) Schulman 等人（2017）的《近端策略优化算法》提出了一种改进的基于近端策略的强化学习过程，比上述的普通策略优化算法更具数据效率和可扩展性。

(3) Ziegler 等人（2020）的《从人类偏好中微调语言模型》阐述了将 PPO 和奖励学习应用于预训练语言模型的概念，包括 KL 正则化以防止策略与自然语言偏离太远。

(4) Stiennon 等人（2022）的《从人类反馈中学习总结》介绍了流行的 RLHF 三步流程，该流程后来也被 InstructGPT 论文使用。

强化学习算法：从 PPO 到 GRPO

如前所述，PPO 是 RLHF 中最初使用的算法。从技术角度来看，它在用于开发推理模型的 RL 流水线中工作得很好。然而，DeepSeek-R1 在其 RL 流水线中使用的是一种名为组相对策略优化（Group Relative Policy Optimization, GRPO）的算法，该算法在他们早期的一篇论文中被引入：

- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (2024)

DeepSeek 团队将 GRPO 介绍为：近端策略优化（PPO）的一种变体，它增强了数学推理能力，同时优化了 PPO 的内存使用。

因此，这里的关键动机是提高计算效率。

效率的提升是通过去掉“评论家”（价值模型），即计算价值函数（也就是预期未来奖励）的 LLM 来实现的。

GRPO 没有依赖这个额外的模型来计算估计奖励，进一步计算优势。而是采用了一种更简单的方法：它从策略模型本身采样多个答案，并使用它们的相对质量来计算优势。

为了说明 PPO 和 GRPO 之间的差异，我借用了 DeepSeekMath 论文中的一张图示：

!注释图来自《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》(https://arxiv.org/abs/2402.03300)，用于说明 PPO 和 GRPO 之间的差异。

强化学习奖励建模：从 RLHF 到 RLVR

到目前为止，我们已经将 RLHF 视为一个流程，并介绍了两种常用于此的强化学习算法：PPO 和 GRPO。

但是，如果 RLHF 已经是 LLM 对齐工具包的核心部分，那么这一切与推理有什么关系呢？

RLHF 与推理之间的联系来自于 DeepSeek 团队如何应用类似的基于 RL 的方法（使用 GRPO）来训练其 R1 和 R1-Zero 模型的推理能力。

不同之处在于，DeepSeek-R1 团队没有依赖人类偏好并训练奖励模型，而是使用了可验证奖励（verifiable rewards）。这种方法被称为基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）。

再次强调：与标准 RLHF 相比，RLVR 绕过了对奖励模型的需求。

因此，模型不是从人类标记的示例中学习什么算是“好”答案，而是从确定性工具（例如符号验证器或基于规则的工具）那里获得直接的二元反馈（正确或错误）。可以想象成用于数学问题的计算器或用于代码生成的编译器。

!基于可验证奖励的强化学习（RLVR）示例。提示模型解决一个数学问题并产生答案。不使用学习到的奖励模型，而是由一个符号验证器（例如，计算器）检查输出，并根据正确性提供二元反馈

这里的一个动机是，通过使用自动正确性检查作为 RL 期间的监督信号，来避免带有噪声或成本高昂的人类奖励或学习奖励。另一个动机是，通过使用像计算器这样“廉价”的工具，我们可以取代昂贵的奖励模型训练和奖励模型本身。由于奖励模型通常是整个预训练模型（但带有回归头），因此 RLVR 效率要高得多。

简而言之，DeepSeek-R1 使用了带 GRPO 的 RLVR，这在训练过程中消除了两个昂贵的模型：奖励模型和价值模型（评论家），如下图所示。

!LLM 训练中强化学习设置的比较。传统的带 PPO 的 RLHF 使用奖励模型（基于人类偏好训练）和评论家（价值模型）来指导学习。GRPO 消除了评论家模型。带 GRPO 的 RLVR 更进一步，也移除了奖励模型，转而依赖于来自符号工具（如计算器或编译器）的可验证奖励

在下一节中，我想简要介绍一下 DeepSeek-R1 的流水线，并讨论 DeepSeek 团队使用的不同可验证奖励。

DeepSeek-R1 推理模型的训练方式

现在我们已经阐明了 RLHF 和 RLVR 是什么，以及 PPO 和 GRPO，让我们在 RL 和推理的背景下简要回顾一下 DeepSeek-R1 论文的主要见解。

首先，有三种类型的模型：

1. DeepSeek-R1-Zero：纯粹用 RL 训练
2. DeepSeek-R1：用指令微调（SFT）和 RL 训练
3. DeepSeek-Distill 变体：通过指令微调 SFT 创建，没有 RL

我创建了一个 DeepSeek-R1 流水线图来说明这些模型之间的关系，如下所示。

!DeepSeek-R1 系列的训练流水线

DeepSeek-R1-Zero 使用带 GRPO 的可验证奖励（RLVR）进行训练，结果证明这足以使模型通过生成中间步骤来展现推理能力。这表明跳过 SFT 阶段是可能的。模型通过探索而不是从示例中学习来提高其推理能力。

DeepSeek-R1 是旗舰模型，性能最好。与 DeepSeek-R1-Zero 的区别在于，他们交替进行指令微调、RLVR 和 RLHF。

DeepSeek-Distill 变体旨在成为更小、更易于部署的模型；它们是通过使用来自 DeepSeek-R1 模型的指令数据对 Llama 3 和 Qwen 2.5 模型进行指令微调生成的。这种方法没有为推理部分使用任何 RL（然而，RLHF 被用于创建 Llama 3 和 Qwen 2.5 基础模型）。

这里的主要结论是，DeepSeek 团队没有使用基于 LLM 的奖励模型来训练 DeepSeek-R1-Zero。相反，他们为 DeepSeek-R1-Zero 和 DeepSeek-R1 的推理训练使用了基于规则的奖励：

> 我们在开发 DeepSeek-R1-Zero 时没有应用结果或过程神经奖励模型，因为我们发现在大规模强化学习过程中，神经奖励模型可能会遭受奖励hacking [...]
>
> 为了训练 DeepSeek-R1-Zero，我们采用了一个基于规则的奖励系统，主要包括两种类型的奖励：
>
> (1) 准确性奖励 (Accuracy rewards) ：准确性奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题的情况下，要求模型以指定格式（例如，在方框内）提供最终答案，从而能够可靠地基于规则验证正确性。类似地，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
>
> (2) 格式奖励 (Format rewards) ：除了准确性奖励模型，我们还使用了一个格式奖励模型，强制模型将其思考过程放在< think >和标签之间。

近期关于训练推理模型的强化学习论文的经验教训

我意识到引言（即到目前为止的所有内容）比我预期的要长得多。尽管如此，我认为这个冗长的引言对于理解以下经验教训的背景可能是必要的。

在上个月查阅了大量关于推理模型的近期论文后，我在本节中整理了最有趣的想法和见解的摘要。（像“[1]”这样的引用指向文章末尾列出的相应论文。）

1. RL 改进了蒸馏模型（但收益可能被夸大）

原始的 DeepSeek-R1 论文清楚地表明，监督微调（SFT）之后进行强化学习（RL）优于单独使用 RL。

鉴于这一观察结果，直观地认为额外的 RL 应该能进一步改进蒸馏模型（因为蒸馏模型本质上代表了使用由更大模型生成的推理示例通过 SFT 训练的模型）。

事实上，DeepSeek 团队明确观察到了这种现象：

> 我们发现将 RL 应用于这些蒸馏模型会产生显著的进一步收益。我们认为这值得进一步探索，因此这里仅呈现简单 SFT 蒸馏模型的结果。

几个团队独立验证了这些观察结果：

- [8] 研究人员使用 1.5B DeepSeek-R1-Distill-Qwen 模型，仅用 7000 个示例和适度的 42 美元计算预算，通过 RL 微调展示了显著的性能提升。令人印象深刻的是，这个小型模型在 AIME24 数学基准测试中超过了 OpenAI 的 o1-preview。
- [15] 然而，另一个团队告诫说，这些收益可能并不总是具有统计学意义。这表明，尽管 RL 可以改进较小的蒸馏模型，但基准测试结果有时可能夸大了改进效果。

!注释图来自《对语言模型推理进展的冷静审视：陷阱与可复现性之路》(A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility), https://arxiv.org/abs/2504.07086

2. 应对 PPO 和 GRPO 中的长度偏差

我之前提到过，带有可验证奖励的 RL（RLVR）并不严格要求使用 GRPO 算法；DeepSeek 的 GRPO 恰好高效且表现良好。

然而[12] 表明，普通的 PPO 搭配基本的二元正确性奖励足以在推理能力和响应长度方面扩展模型。

更有趣的是，PPO 和 GRPO 都存在长度偏差。几篇论文探讨了处理过长错误答案的方法：

- [14] 提供了一项分析，说明 PPO 由于损失计算中的数学偏差而无意中偏爱较长的响应；GRPO 可能也存在同样的问题。

!注释图来自《通过强化学习实现简洁推理》(Concise Reasoning via Reinforcement Learning), https://arxiv.org/abs/2504.05185

- 作为上述声明的后续，[7] [10] 特别指出了 GRPO 中的长度和难度级别偏差。修改后的变体 "Dr. GRPO" 通过移除长度和标准差归一化来简化优势计算，提供更清晰的训练信号。
- [1] 在 GRPO 中明确惩罚冗长的错误答案，同时奖励简洁、正确的答案。
- [3] [6] 没有直接控制 GRPO 中的响应长度，但发现词元级奖励是有益的，使模型能够更好地关注关键的推理步骤。
- [5] 在 GRPO 中引入了对超过特定长度的响应的明确惩罚，从而在推理过程中实现精确的长度控制。

3. RL 诱导的涌现能力

除了 DeepSeek-R1 论文中提到的“顿悟”（AHA）时刻之外，RL 已被证明能在模型中诱导出有价值的自我验证和反思性推理能力 [2] [9]。有趣的是，与“顿悟”时刻类似，这些能力是在训练过程中自然涌现的，无需明确指示。

[1] 表明，扩展上下文长度（高达 128k 词元）进一步提高了模型的自我反思和自我纠正能力。

4. RL 训练的泛化能力

迄今为止，大多数研究工作都集中在数学或编码背景下的推理任务上。然而，[4] 通过在逻辑谜题上训练模型，展示了成功的泛化能力。并且，在逻辑谜题上训练的模型在数学推理任务中也取得了强劲的表现。这证明了 RL 能够诱导独立于特定领域知识的通用推理行为。

5. 超越结构化领域的推理

作为上一节的后续，另一个有趣的见解 [11] 是，推理能力可以自然地扩展到数学、代码和逻辑等结构化领域之外。

模型成功地将推理应用于医学、化学、心理学、经济学和教育等领域，利用生成式软评分方法有效处理自由格式的答案。

6. 推理模型的下一步

推理模型值得注意的下一步包括：

- 将现有推理模型（例如 o1、DeepSeek-R1）与外部工具使用和检索增强生成（RAG）等能力相结合；OpenAI 刚刚实现的 o3 模型为此铺平了道路。
- 谈到工具使用和搜索，[9] 表明，赋予推理模型搜索能力会诱导出自我纠正和跨基准测试的稳健泛化等行为，尽管训练数据集很小。

根据 DeepSeek-R1 团队在维持基于知识的任务性能方面所做的努力，我认为为推理模型添加搜索能力几乎是必然的选择。

7. 推理能力是否仅源于 RL？

DeepSeek-R1（和 R1-Zero）背后的基本主张是 RLVR 明确诱导了推理能力。然而，最近的发现 [10] 表明，包括“顿悟时刻”在内的推理行为可能由于在大量思维链数据上进行预训练而已经存在于基础模型中。

我最近对 DeepSeek V3 基础模型和 R1 的比较强化了这一观察结果，因为更新后的基础模型也展示了类似推理的行为。例如，原始 V3 和 R1 模型之间的比较清楚地显示了非推理模型和推理模型之间的区别：

![](/images/959951e5f1800ffcd780dc7a7db275cc.png)

然而，在比较更新后的 V3 基础模型和 R1 时，情况不再如此：

![](/images/7b1ca2175af8d938e1d8830ca7c3a86c.png)

此外，[13] 发现自我反思和自我纠正行为在整个预训练过程中，跨越不同领域和模型规模逐渐涌现。这进一步使得将推理能力完全归因于 RL 方法变得复杂。

也许结论是，RL 确实将简单的基础模型转变为推理模型。然而，它并不是诱导或提高推理能力的唯一途径。正如 DeepSeek-R1 团队所展示的，蒸馏也能提高推理能力。而且由于在该论文中，蒸馏意味着在思维链数据上进行指令微调，因此很可能在包含思维链数据的预训练数据上进行训练也能诱导这些能力。

值得关注的有关训练推理模型的研究论文

在上个月阅读了大量推理论文后，我尝试在上一节总结了最有趣的要点。然而，对于那些对来源细节更感兴趣的人，我在下面这一节中列出了 15 篇相关论文，作为可选阅读。（为简单起见，以下摘要按日期排序。）

请注意，这个列表也不是详尽的（我将其限制在 15 篇），因为这篇文章已经太长了！

📄 1月22日, Kimi k1.5: Scaling Reinforcement Learning with LLMs, https://arxiv.org/abs/2501.12599

这篇论文与 DeepSeek-R1 论文在同一天发表！作者展示了一个用 RL 训练的多模态 LLM。与 DeepSeek-R1 类似，他们没有使用过程奖励模型（PRM），而是采用了可验证奖励。PRM 是一种用于 RL（尤其是在 LLM 训练中）的奖励模型，它不仅评估最终答案，还评估导致答案的推理步骤。

这里的另一个关键思想是，扩展上下文长度（高达 128k 词元）有助于模型在推理过程中进行规划、反思和自我纠正。因此，除了与 DeepSeek-R1 类似的正确性奖励外，他们还有一个长度奖励。具体来说，他们提倡更短的正确响应，而错误的冗长答案会受到更严厉的惩罚。

他们提出了一种名为 long2short 的方法，将这些长思维链技能蒸馏到更高效的短 CoT 模型中。（通过使用模型合并、最短拒绝采样、DPO 以及带有更强长度惩罚的第二轮 RL，从长 CoT 模型中蒸馏出较短的正确响应来实现）

!注释图来自《Kimi k1.5: Scaling Reinforcement Learning with LLMs》, https://arxiv.org/abs//2501.12599

📄 2月3日, Competitive Programming with Large Reasoning Models, https://arxiv.org/abs/2502.06807

这篇来自 OpenAI 的论文评估了他们的 o-模型（如 o1、o1-ioi 和 o3）在竞争性编程任务上的表现。虽然它没有深入探讨 RL 是如何应用的技术细节，但仍然提供了一些要点。

首先，这些模型是使用基于结果的 RL（outcome-based RL）训练的，而不是基于过程的奖励模型。这与 DeepSeek-R1 和 Kimi 等方法类似。

一个有趣的发现是，o3 可以学习自己的测试时（即推理时扩展）策略。例如，它通常会编写一个问题的简单暴力破解版本（牺牲效率换取正确性），然后用它来验证其更优化解决方案的输出。这种策略并非手工编码；模型是自己想出来的。

总的来说，该论文认为，扩展通用 RL 使模型能够开发自己的推理和验证方法，而无需任何人类启发式方法或特定领域的推理流水线。相比之下，其他（早期）模型，如 o1-ioi，依赖于手工制作的测试时策略，例如对数千个样本进行聚类并重新排序，这需要大量的手动设计和调整。

!注释图来自《Competitive Programming with Large Reasoning Models》, https://arxiv.org/abs/2502.06807

📄 2月10日, Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning, https://arxiv.org/abs/2502.06781

这篇论文探讨了仅使用二元“正确”或“错误”反馈（如 DeepSeek-R1 中）的 RL 在解决数学问题方面能走多远。为此，他们首先使用 Best-of-N 采样来收集积极示例，并对其应用行为克隆，他们证明这在理论上足以优化策略。

为了应对稀疏奖励的挑战（特别是当长思维链包含部分正确的步骤时），他们添加了一个词元级奖励模型，该模型学习为推理的不同部分分配重要性权重。这有助于模型在学习时关注最关键的步骤，并提高整体性能。

!注释图来自《Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning》, https://arxiv.org/abs/2502.06781

📄 2月20日, Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning, https://arxiv.org/abs/2502.14768

DeepSeek-R1 专注于数学和代码任务。这篇论文使用逻辑谜题作为主要训练数据来训练一个 7B 模型。

研究人员采用了与 DeepSeek-R1 类似的基于规则的 RL 设置，但做了一些调整：

1. 他们引入了严格的格式奖励，惩罚走捷径的行为，并确保模型使用和标签将其推理与其最终答案分开。
2. 他们还使用了一个系统提示，明确告诉模型在给出最终答案之前先逐步思考问题。

即使只有 5000 个合成逻辑问题，该模型也发展出了良好的推理技能，并能很好地泛化到更难的数学基准测试，如 AIME 和 AMC。

这特别有趣，因为它表明基于逻辑的 RL 训练可以教会模型以能够迁移到原始领域之外的方式进行推理。

!注释图来自《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》, https://arxiv.org/abs/2502.14768

📄 3月6日, L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning, https://arxiv.org/abs/2503.04697

推理模型的一个特点是它们倾向于生成更长的输出，因为存在思维链推理。但默认情况下，没有明确的方法来控制响应的长度。

这篇论文介绍了一种名为长度控制策略优化（Length Controlled Policy Optimization, LCPO）的简单强化学习方法，该方法帮助模型遵守用户指定的长度约束，同时仍然优化准确性。

简而言之，LCPO 类似于 GRPO，即“GRPO + 用于长度控制的自定义奖励”，实现方式如下：
reward = reward_correctness - α * |target_length - actual_length|
其中目标长度作为用户提示的一部分提供。上述 LCPO 方法鼓励模型精确地遵守提供的目标长度。

此外，他们还引入了一个 LCPO-Max 变体，它不是鼓励模型精确匹配目标长度，而是鼓励模型保持在最大词元长度以下：
reward = reward_correctness clip(α (target_length - actual_length) + δ, 0, 1)

作者使用 LCPO 训练了一个名为 L1 的 1.5B 模型，该模型可以根据提示调整其输出长度。这让用户可以根据任务在准确性和计算量之间进行权衡。有趣的是，该论文还发现，这些长链模型在短推理方面实际上也变得出奇地好，甚至在相同词元长度下优于像 GPT-4o 这样参数大得多的模型。

!注释图来自《L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning》, https://arxiv.org/abs/2503.04697

📄 3月10日, R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning, https://arxiv.org/abs/2503.05592

像 DeepSeek-R1 这样用 RL 训练的推理模型依赖于其内部知识。这里的作者专注于通过添加对外部搜索系统的访问来改进这些模型在需要更具时效性或最新信息的知识型任务上的表现。

因此，这篇论文通过教模型在推理过程中使用外部搜索系统来改进这些模型。作者没有依赖测试时策略或监督训练，而是使用了一种两阶段强化学习方法，帮助模型自主学习如何以及何时进行搜索。模型首先学习搜索格式，然后学习如何使用搜索结果来找到正确答案。

!注释图来自《R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning》, https://arxiv.org/abs/2503.05592

📄 3月18日, DAPO: An Open-Source LLM Reinforcement Learning System at Scale, https://arxiv.org/abs/2503.14476

虽然这篇论文主要是关于开发一个类似 DeepSeek-R1 的训练流水线并将其开源，但它也对 DeepSeek-R1 训练中使用的 GRPO 算法提出了改进。

1. Clip-higher：提高 PPO 截断范围的上限，以鼓励探索并防止训练过程中的熵崩溃。
2. 动态采样 (Dynamic sampling) ：通过过滤掉所有采样响应要么总是正确要么总是错误的提示，来提高训练效率。
3. 词元级策略梯度损失 (Token-level policy gradient loss) ：将损失计算从样本级移至词元级，以便更长的响应可以对梯度更新产生更大影响。
4. 超长奖励调整 (Overlong reward shaping) ：为因过长而被截断的响应添加软惩罚，这可以减少奖励噪声并有助于稳定训练。

标准 GRPO 使用样本级损失计算。这涉及首先对每个样本的词元损失求平均，然后对样本的损失求平均。由于样本具有相同的权重，因此响应较长的样本中的词元可能对整体损失的贡献不成比例地减少。同时，研究人员观察到，较长的响应通常在最终答案之前包含无意义的内容，而这种无意义的内容在原始 GRPO 样本级损失计算中不会受到足够的惩罚。

!注释图来自《DAPO: An Open-Source LLM Reinforcement Learning System at Scale》, https://arxiv.org/abs/2503.14476

📄 3月20日, Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't, https://arxiv.org/abs/2503.16219

原始的 DeepSeek-R1 论文表明，在开发小型推理模型时，蒸馏比纯 RL 效果更好。在这篇论文中，研究人员对此进行了跟进，并研究了如何通过 RL 进一步改进小型的、蒸馏的推理模型。

因此，他们使用 1.5B DeepSeek-R1-Distill-Qwen 模型发现，仅用 7000 个训练示例和 42 美元的计算预算，RL 微调就能带来显著的改进。在这种情况下，这些改进足以在 AIME24 数学基准测试中超过 OpenAI 的 o1-preview。

此外，该论文中有 3 个有趣的发现：

1. 使用紧凑、高质量的数据集，小型 LLM 可以在最初的 50-100 个训练步骤内实现快速的推理改进。但如果训练持续太久，性能会迅速下降，主要是由于长度限制和输出不稳定性。
2. 混合较易和较难的问题有助于模型在训练早期产生更短、更稳定的响应。然而，性能仍然会随着时间的推移而下降。
3. 使用余弦形状的奖励函数有助于更有效地控制输出长度并提高训练一致性。但这会略微降低与标准基于准确性的奖励相比的峰值性能。

!注释图来自《Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't》, https://arxiv.org/abs/2503.16219

📄 3月25日, ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning, https://arxiv.org/abs/2503.19470

这篇论文提出的 ReSearch 框架扩展了 DeepSeek-R1 论文中的 RL 方法，将搜索结果作为推理过程的一部分。模型根据其正在进行的推理链学习何时以及如何搜索，然后使用检索到的信息进行下一步的推理。

这一切都是在没有对推理步骤进行监督数据的情况下完成的。研究人员还表明，这种方法可以带来有用的行为，如自我纠正和反思，并且尽管只在一个数据集上训练，它也能很好地泛化到多个基准测试中。

!注释图来自《ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning》, https://arxiv.org/abs/2503.19470

附言：这种方法与前面讨论的 R1-Searcher 有何不同？

R1-Searcher 使用两阶段、基于结果的强化学习方法。在第一阶段，它教模型如何调用外部检索；在第二阶段，它学习使用检索到的信息来回答问题。
相比之下，ReSearch 将搜索直接集成到推理过程中。它使用强化学习端到端地训练模型，无需对推理步骤进行任何监督。诸如反思错误查询并纠正它们的行为在这里的训练过程中自然涌现。

📄 3月26日, Understanding R1-Zero-Like Training: A Critical Perspective, https://arxiv.org/abs/2503.20783

这篇论文研究了为什么 DeepSeek-R1-Zero 的纯 RL 方法能够改进推理。

作者发现，像 Qwen2.5 这样的一些基础模型在没有任何 RL 的情况下就已经表现出强大的推理能力，甚至出现了“顿悟时刻”。因此，“顿悟时刻”可能不是由 RL 诱导的，而是从预训练中继承的。这挑战了 RL 单独创造深度推理行为的观点。

该论文还指出了 GRPO 中的两个偏差：

1. 响应长度偏差 (Response-length bias) ：GRPO 将优势除以响应的长度。这使得冗长的错误答案受到的惩罚更小，因此模型学会生成更长的错误答案。
2. 难度级别偏差 (Difficulty-level bias) ：GRPO 还按每个问题的奖励标准差进行归一化。简单或困难的问题（奖励方差低）会被过度加权。

为了解决这个问题，作者引入了 Dr. GRPO，它是标准 GRPO 的一个改进版本-去掉了优势计算中的响应长度归一化。此外，他们还去掉了问题级别的标准差。这将导致更高效的训练和更少不必要的长答案。特别是如果模型错了，生成长答案将不再受到鼓励。

📄 3月31日, Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains, https://arxiv.org/abs/2503.23829

DeepSeek-R1 和随后的大多数其他推理模型都专注于来自易于验证领域（如代码和数学）的奖励信号。这篇论文探讨了如何将这些方法扩展到更复杂的领域，如医学、化学、心理学、经济学和教育，在这些领域中，答案通常是自由格式的，更难验证（超出简单的正确/错误）。

作者发现，即使在这些更广泛的领域，使用专家编写的参考答案也使得评估比预期的更可行。为了提供奖励信号，他们引入了一种生成式的软评分方法，无需大量特定领域的标注。

!注释图来自《Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains》, https://arxiv.org/abs/2503.23829

📄 3月31日, Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model, https://arxiv.org/abs/2503.24290

在这篇论文中，作者探索了一种极简的强化学习设置，用于在推理任务上训练 LLM。他们使用普通的 PPO 而不是 GRPO（后者用于 DeepSeek-R1-Zero），并跳过了 RLHF 流水线中通常包含的 KL 正则化。

有趣的是，他们发现这种简单的设置（普通的 PPO 和基于答案正确性的基本二元奖励函数）足以训练出在推理性能和响应长度上都能扩展的模型。

使用与 DeepSeek-R1-Zero 相同的 Qwen-32B 基础模型，他们的模型在多个推理基准测试中表现优于前者，而所需的训练步骤仅为其 1/10。

!注释图来自《Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model》, https://arxiv.org/abs/2503.24290

📄 4月5日, Rethinking Reflection in Pre-Training, https://arxiv.org/abs/2504.04022

基于 DeepSeek-R1 论文中有趣的见解，即将纯 RL 应用于基础模型，我们认为 LLM 中的推理能力源于 RL。这篇论文提供了一点情节反转，指出自我纠正实际上在预训练期间更早就出现了。

具体来说，通过在任务中故意引入有缺陷的思维链，作者测量模型是否能识别并纠正这些错误。他们发现，显式和隐式的反思形式在整个预训练过程中稳步出现。这种情况发生在许多领域和模型规模上。即使是相对早期的检查点也显示出自我纠正的迹象，并且随着预训练计算量的增加，这种能力变得更强。

!注释图来自《Rethinking Reflection in Pre-Training》, https://arxiv.org/abs/2504.04022

📄 4月7日, Concise Reasoning via Reinforcement Learning, https://arxiv.org/abs/2504.05185

众所周知，推理模型通常会生成更长的响应，这增加了计算成本。现在，这篇新论文表明，这种行为源于 RL 训练过程，而不是出于对长答案以获得更好准确性的实际需求。当模型获得负奖励时，RL 损失倾向于偏爱更长的响应，我认为这解释了纯 RL 训练中出现的“顿悟”时刻和更长的思维链。

也就是说，如果模型获得负奖励（即答案错误），PPO 背后的数学原理导致响应越长，平均每个词元的损失就越小。因此，模型被间接鼓励使其响应更长。即使那些额外的词元实际上并没有帮助解决问题，情况也是如此。

响应长度与损失有什么关系？当奖励为负时，较长的响应可以稀释每个单独词元的惩罚，从而导致更低（即更好）的损失值（即使模型仍然答错了）。

因此，模型“学会”了较长的响应可以减少惩罚，即使它们对正确性没有帮助。

然而，需要强调的是，这项分析是针对 PPO 进行的：我们目前的分析不适用于 GRPO

此外，研究人员表明，第二轮 RL（仅使用少量有时可解的问题）可以缩短响应，同时保持甚至提高准确性。这对部署效率具有重大意义。

!注释图来自《Concise Reasoning via Reinforcement Learning》, https://arxiv.org/abs/2504.05185

📄 4月9日, A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, https://arxiv.org/abs/2504.07086

这篇论文仔细审视了近期关于 RL 可以改进蒸馏语言模型（如基于 DeepSeek-R1 的模型）的说法。

例如，我之前讨论过“3月20日，小型 LLM 推理的强化学习：哪些有效，哪些无效”这篇论文，该论文发现 RL 对蒸馏模型有效。

而且 DeepSeek-R1 论文也提到：我们发现将 RL 应用于这些蒸馏模型会产生显著的进一步收益。我们认为这值得进一步探索，因此这里仅呈现简单 SFT 蒸馏模型的结果。

尽管早期的论文报道了 RL 带来的巨大性能提升，但这项工作发现，这些改进中的许多可能只是噪音。作者表明，在像 AIME24 这样的小型基准测试上的结果非常不稳定：仅仅改变一个随机种子就可以使分数产生几个百分点的变化。

当 RL 模型在更受控制和标准化的设置下进行评估时，收益结果远小于最初报道的，并且通常不具有统计显著性。然而，一些用 RL 训练的模型确实显示出适度的改进，但这些改进通常弱于监督微调所能达到的效果，并且它们通常不能很好地泛化到新的基准测试。

因此，虽然 RL 在某些情况下可能有助于改进较小的蒸馏模型，但这篇论文认为其益处被夸大了，需要更好的评估标准来理解什么才是真正有效的。

!注释图来自(A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility), https://arxiv.org/abs/2504.07086