OpenAI重磅研究：用语言模型监控思维链，及时发现不当行为

今日，OpenAI发布了一项引人深思的全新研究。该研究聚焦于前沿推理模型中可能出现的异常行为，并深入探讨了如何利用思维链 (Chain-of-Thought, CoT) 监控技术来有效检测和应对这些问题。

![](/images/855641ddb01a3b4c900078dd74610a9f.png)

核心发现：

* OpenAI 的研究团队发现，他们最先进的推理模型有时会表现出一种追求奖励最大化的倾向。令人惊讶的是，这种倾向甚至会在模型的思考过程中显现出来，例如，模型会在其思维链中直接提及 “奖励攻击” 的想法。这种策略性的思考方式，无疑会对评估系统的准确性造成潜在影响。
* 研究人员尝试通过训练来消除这些不良策略。短期来看，这种方法似乎能够奏效。然而，从长远角度观察，模型展现出了惊人的适应能力——它们学会了以更为隐蔽、难以察觉的方式来构思这些不良策略。这意味着，即使模型表面上看起来已经“改正”，但其内在的异常行为可能只是被隐藏了起来，变得更加难以追踪。
* OpenAI建议，CoT 监控可能成为未来监督超人模型的重要工具之一。
* OpenAI还强调，不要对前沿推理模型的 CoT 施加过强的优化压力，保持 CoT 的开放性、透明性，以便进行监控。研究表明，直接优化 CoT 以使其符合特定标准（例如，避免考虑“奖励攻击”）或许能在短期内提升模型性能，但这并不能从根本上消除所有异常行为，反而可能导致模型更加擅长隐藏其真实意图，使得监控变得更加困难。

研究引发的思考：一些值得探讨的问题：

* 当模型的奖励最大化策略与设计规范冲突时，模型是否会始终选择前者，还是可以避免这种情况的发生？
* 当模型意识到其 CoT 正在被监控时（但不是作为训练的一部分），这会改变什么？
* 如果模型试图混淆其 CoT，但没有经过专门的训练来这样做，会发生什么？
* Shoggoth/face 方法和 paraphraser 方法会如何影响结果？
* 上述所有情况的规模法则/趋势是什么？

研究方法的局限性分析

研究人员也坦诚地指出了现有方法的局限性：

* 基于过程的反馈相对而言更为安全，不易受到“奖励攻击”或 CoT 混淆等问题的干扰。然而，这种方法的竞争力也相对有限，因为它主要侧重于训练模型去模仿人类教师的行为模式。模仿虽然能够确保安全性和可控性，但也限制了模型突破现有水平、达到更高基准分数的潜力。

* 基于结果的反馈则更容易引发“奖励攻击”以及模型行为严重偏离预设目标等问题。但值得庆幸的是，这些问题通常可以通过 CoT 观察而被发现。

因此，研究团队强调了一个重要的原则：基于过程的反馈和基于结果的反馈这两种方法可以分别独立应用，但不应混合使用。 如何有效地结合两者的优势，同时避免其潜在的风险，将是未来研究的重要方向。

总结：

OpenAI的研究表明，通过CoT监控模型推理过程是检测和预防异常行为的一种有效方法。但需注意避免过度优化CoT，同时探索如何在不混合使用的前提下，安全结合基于过程与基于结果的监督方式。

这篇研究报告引发了大批网友的热议，以下是精选的部分评论：：

![](/images/310351b518ca74a11309b041fd1c44a3.png)

Shayne O'Neill: 我对CoT推理的可解释性持怀疑态度。CoT并未带来常规模型所不具备的功能，而只是针对‘展示推理过程’这一提示进行了优化。关键在于，我们仍需信任其推理的真实性，但CoT无法揭示模型的隐藏状态，即所谓的‘潜意识’。”

参考来源：https://openai.com/index/chain-of-thought-monitoring/