Anthropic实践：构建生产级多智能体系统的核心原则与工程挑战

AI Agent 的浪潮正席卷而来，但如何将一个概念验证 (PoC) 原型，真正打造成稳定可靠、可用于生产环境的系统？这背后充满了挑战。

近期，Anthropic 为其旗舰模型 Claude 推出了强大的研究 (Research) 功能，使其能通过一个多智能体系统，根据用户查询规划研究流程，搜索网络、Google Workspace 及其他应用，完成复杂的研究任务。

从原型到生产的这一过程，让 Anthropic 团队在系统架构、工具设计、提示工程、评估体系和工程可靠性方面积累了宝贵的经验。本文将深入剖析其行之有效的核心原则，为行业内的构建者们提供一份实用的参考。

为何选择多智能体系统？

研究工作天然具有开放性和不确定性，无法预设固定的探索路径。就像人类专家一样，智能体需要根据新发现动态调整策略。这种特性使得 AI 智能体，尤其是多智能体系统，成为研究任务的绝佳选择。

多智能体系统的核心优势在于：

> 1. 并行与压缩： 子智能体在各自的上下文窗口中并行工作，探索问题的不同侧面，最终将海量信息压缩提炼为关键洞见，交给主智能体。
>
> 2. 关注点分离： 每个子智能体拥有独立的工具、提示和探索路径，这减少了路径依赖，使彻底、独立的调查成为可能。
>
> 3. 性能的指数级扩展： 一旦智能达到某个阈值，集体智慧的威力便会凸显。Anthropic 的内部评估显示，在广度优先的查询任务上，由 Claude Opus 和 Sonnet 组成的多智能体系统，性能比单个最强的 Claude Opus 模型高出 90.2%。

究其根本，多智能体系统之所以有效，是因为它能投入足够多的 Token (计算资源) 来解决复杂问题。Anthropic 的分析发现，Token 使用量本身解释了 80% 的性能差异。

当然，这也带来了高昂的成本。多智能体系统消耗的 Token 远超普通聊天，因此更适用于那些价值足够高、能够覆盖其成本的复杂任务。

架构揭秘：“编排者-工作者”模式

Anthropic 的“研究”系统采用了一种经典的“编排者-工作者” (Orchestrator-Worker) 模式。

!多智能体架构工作示意图：用户的查询首先交由主智能体处理，主智能体会创建专门的子智能体，并行地研究问题的不同方面

具体流程如下：
1. 主智能体 (Lead Agent) 接收用户查询，制定策略，并生成多个专业的 子智能体 (Subagents) 。
2. 子智能体并行工作，像智能过滤器一样，迭代使用搜索等工具收集信息。
3. 子智能体将结果返回给主智能体，由主智能体进行综合、分析，并生成最终答案。

这与传统的 RAG (检索增强生成) 的静态检索不同，该架构采用多步动态搜索，能主动适应新发现，形成更高质量的答案。

!详细工作流程图：系统包含主研究员 (LeadResearcher)、子智能体 (Subagent)、引文智能体 (CitationAgent) 和记忆 (Memory) 模块，形成一个闭环的研究、综合、引用与迭代过程。

提示工程：智能体的8大原则

在多智能体系统中，协调的复杂度急剧上升。提示工程是引导智能体行为、避免其“失控”的核心手段。以下是 Anthropic 总结的 8 条黄金法则：

1. 像智能体一样思考
要优化提示，必须先理解其效果。该团队通过在控制台模拟智能体的每一步工作，直观地发现失败模式 (如过度搜索、选错工具等)。建立对智能体准确的心智模型，是做出最有效改进的前提。

2. 教会“编排者”如何委派
主智能体需要向子智能体下达清晰明确的指令，包括目标、输出格式、工具建议和任务边界。模糊的指令会导致重复劳动或任务失败。

3. 根据查询复杂性调整投入
在提示中嵌入动态调整规则，帮助主智能体判断任务的复杂度，并分配合理的资源。例如，简单事实查询只需 1 个智能体，而复杂研究则可能需要 10 个以上分工明确的子智能体。

4. 工具设计和选择至关重要
智能体与工具的接口，如同人机界面一样重要。Anthropic 为智能体设定了启发式规则 (如先检查所有可用工具、优先使用专用工具等)，并确保每个工具都有清晰、无歧义的描述，避免将其引向歧途。

5. 让智能体自我进化
研究发现 Claude 模型本身就是出色的提示工程师。Anthropic 创建了一个“工具测试智能体”，当它遇到有缺陷的工具时，会尝试使用并自动重写工具描述以避免未来失败。这一过程让新智能体的任务完成时间减少了 40%。

6. 先广后窄，由面及点
模仿人类专家的研究方式：先通过宽泛的查询了解全局，再逐步缩小范围，深入具体细节。这能有效避免因查询词过于具体而导致结果寥寥的困境。

7. 引导思维过程
通过利用“扩展思考模式” (Extended Thinking Mode)，可以让智能体输出其“思考过程”，作为可控的草稿纸。主智能体用它来规划，子智能体用它来评估结果、调整策略。这显著提升了推理、执行的效率和准确性。

8. 并行化是性能变革的关键
该系统引入了两种并行机制：主智能体并行启动多个子智能体，以及子智能体并行调用多个工具。这些改变将复杂查询的研究时间缩短了高达 90%，实现了从数小时到几分钟的飞跃。

评估体系：如何衡量一个“聪明”的系统？

评估多智能体系统极具挑战，因为它们是非确定性的——即便是同一起点，也可能通过不同路径达成目标。因此，需要更灵活的评估方法。

* 从小样本开始，立即评估
在开发早期，微小的改动就可能带来巨大的性能提升 (例如成功率从 30% 到 80%)。此时，只需少量有代表性的案例，就能快速验证效果。不应等到构建了完美的大型评估集才开始测试。

* “LLM 即评委”的可规模化评估
研究任务的输出是开放的，难以程序化评估。Anthropic 使用一个 LLM 评委，根据事实准确性、引文准确性、完整性、来源质量、工具效率等标准进行打分。这种方法在有明确答案的测试用例上尤其有效，从而能够规模化地评估成百上千的输出。

* 人工评估捕捉自动化盲点
自动化评估总有盲点。人工测试能发现许多边缘案例，如幻觉、系统故障或微妙的偏见 (例如，早期智能体偏爱 SEO 优化的“内容农场”而非权威来源)。在 AI 时代，人工评估依然不可或缺。

生产挑战：从代码到可靠服务的“最后一公里”

将原型转化为可靠的生产系统，这段“最后一公里”往往占据了旅程的大部分。

> 在智能体系统中，错误的复合效应意味着，传统软件中的小问题，也可能让智能体彻底偏离轨道。

在实践中，有以下关键挑战需要克服：

1. 状态与错误叠加： 智能体是长时运行且有状态的。系统必须具备从错误中恢复的能力，而非简单重启。同时，利用模型智能优雅地处理故障 (例如，告知智能体工具失效，让其自行适应) 是一种有效策略。

2. 调试的新思路： 由于智能体的非确定性，传统调试方法难以奏效。Anthropic 引入了全链路的生产环境追踪，在保护用户隐私的前提下，监控智能体的决策模式和交互结构，从而系统性地诊断和修复问题。

3. 部署的精心协调： 智能体系统是高度状态化的。为避免部署更新时破坏正在运行的任务，团队采用了“彩虹部署” (Rainbow Deployments)(https://brandon.dimcheff.com/2018/02/rainbow-deploys-with-kubernetes) 策略，让新旧版本同时运行，逐步迁移流量。

4. 同步执行的瓶颈： 目前的同步执行模式简化了协调，但也造成了瓶颈。未来，异步执行将释放更大的并行潜力，尽管这会带来状态一致性、错误传播等新挑战，但 Anthropic 相信性能的提升将证明其价值。

结语

尽管挑战重重，多智能体系统已在开放式研究任务中证明了其巨大价值。用户反馈显示，Claude 帮助他们发现了未曾考虑的商机、梳理了复杂的医疗选项、解决了棘手的技术难题，节省了数天的工作量。

Anthropic 相信，通过精心的工程设计、全面的测试、细致的提示与工具设计、稳健的运维实践，以及跨团队的紧密协作，多智能体系统能够在生产规模上可靠运行，并从根本上改变人们解决复杂问题的方式。

参考链接：
[1] https://www.anthropic.com/engineering/built-multi-agent-research-system
[2] https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking#interleaved-thinking
[3] https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
[4] https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents/prompts