Anthropic实践:构建生产级多智能体系统的核心原则与工程挑战

Sunday, June 15, 2025 - AI Agent - AI Agent System Architecture Claude

AI Agent 的浪潮正席卷而来,但如何将一个概念验证 (PoC) 原型,真正打造成稳定可靠、可用于生产环境的系统?这背后充满了挑战。

近期,Anthropic 为其旗舰模型 Claude 推出了强大的研究 (Research) 功能,使其能通过一个多智能体系统,根据用户查询规划研究流程,搜索网络、Google Workspace 及其他应用,完成复杂的研究任务。

从原型到生产的这一过程,让 Anthropic 团队在系统架构、工具设计、提示工程、评估体系和工程可靠性方面积累了宝贵的经验。本文将深入剖析其行之有效的核心原则,为行业内的构建者们提供一份实用的参考。

为何选择多智能体系统?

研究工作天然具有开放性和不确定性,无法预设固定的探索路径。就像人类专家一样,智能体需要根据新发现动态调整策略。这种特性使得 AI 智能体,尤其是多智能体系统,成为研究任务的绝佳选择。

多智能体系统的核心优势在于:

> 1. 并行与压缩: 子智能体在各自的上下文窗口中并行工作,探索问题的不同侧面,最终将海量信息压缩提炼为关键洞见,交给主智能体。
>
> 2. 关注点分离: 每个子智能体拥有独立的工具、提示和探索路径,这减少了路径依赖,使彻底、独立的调查成为可能。
>
> 3. 性能的指数级扩展: 一旦智能达到某个阈值,集体智慧的威力便会凸显。Anthropic 的内部评估显示,在广度优先的查询任务上,由 Claude Opus 和 Sonnet 组成的多智能体系统,性能比单个最强的 Claude Opus 模型高出 90.2%

究其根本,多智能体系统之所以有效,是因为它能投入足够多的 Token (计算资源) 来解决复杂问题。Anthropic 的分析发现,Token 使用量本身解释了 80% 的性能差异。

当然,这也带来了高昂的成本。多智能体系统消耗的 Token 远超普通聊天,因此更适用于那些价值足够高、能够覆盖其成本的复杂任务。

架构揭秘:“编排者-工作者”模式

Anthropic 的“研究”系统采用了一种经典的“编排者-工作者” (Orchestrator-Worker) 模式

!多智能体架构工作示意图:用户的查询首先交由主智能体处理,主智能体会创建专门的子智能体,并行地研究问题的不同方面

具体流程如下:
1. 主智能体 (Lead Agent) 接收用户查询,制定策略,并生成多个专业的 子智能体 (Subagents)
2. 子智能体并行工作,像智能过滤器一样,迭代使用搜索等工具收集信息。
3. 子智能体将结果返回给主智能体,由主智能体进行综合、分析,并生成最终答案。

这与传统的 RAG (检索增强生成) 的静态检索不同,该架构采用多步动态搜索,能主动适应新发现,形成更高质量的答案。

!详细工作流程图:系统包含主研究员 (LeadResearcher)、子智能体 (Subagent)、引文智能体 (CitationAgent) 和记忆 (Memory) 模块,形成一个闭环的研究、综合、引用与迭代过程。

提示工程:智能体的8大原则

在多智能体系统中,协调的复杂度急剧上升。提示工程是引导智能体行为、避免其“失控”的核心手段。以下是 Anthropic 总结的 8 条黄金法则:

1. 像智能体一样思考
要优化提示,必须先理解其效果。该团队通过在控制台模拟智能体的每一步工作,直观地发现失败模式 (如过度搜索、选错工具等)。建立对智能体准确的心智模型,是做出最有效改进的前提。

2. 教会“编排者”如何委派
主智能体需要向子智能体下达清晰明确的指令,包括目标、输出格式、工具建议和任务边界。模糊的指令会导致重复劳动或任务失败。

3. 根据查询复杂性调整投入
在提示中嵌入动态调整规则,帮助主智能体判断任务的复杂度,并分配合理的资源。例如,简单事实查询只需 1 个智能体,而复杂研究则可能需要 10 个以上分工明确的子智能体。

4. 工具设计和选择至关重要
智能体与工具的接口,如同人机界面一样重要。Anthropic 为智能体设定了启发式规则 (如先检查所有可用工具、优先使用专用工具等),并确保每个工具都有清晰、无歧义的描述,避免将其引向歧途。

5. 让智能体自我进化
研究发现 Claude 模型本身就是出色的提示工程师。Anthropic 创建了一个“工具测试智能体”,当它遇到有缺陷的工具时,会尝试使用并自动重写工具描述以避免未来失败。这一过程让新智能体的任务完成时间减少了 40%。

6. 先广后窄,由面及点
模仿人类专家的研究方式:先通过宽泛的查询了解全局,再逐步缩小范围,深入具体细节。这能有效避免因查询词过于具体而导致结果寥寥的困境。

7. 引导思维过程
通过利用“扩展思考模式” (Extended Thinking Mode),可以让智能体输出其“思考过程”,作为可控的草稿纸。主智能体用它来规划,子智能体用它来评估结果、调整策略。这显著提升了推理、执行的效率和准确性。

8. 并行化是性能变革的关键
该系统引入了两种并行机制:主智能体并行启动多个子智能体,以及子智能体并行调用多个工具。这些改变将复杂查询的研究时间缩短了高达 90%,实现了从数小时到几分钟的飞跃。

评估体系:如何衡量一个“聪明”的系统?

评估多智能体系统极具挑战,因为它们是非确定性的——即便是同一起点,也可能通过不同路径达成目标。因此,需要更灵活的评估方法。

* 从小样本开始,立即评估
在开发早期,微小的改动就可能带来巨大的性能提升 (例如成功率从 30% 到 80%)。此时,只需少量有代表性的案例,就能快速验证效果。不应等到构建了完美的大型评估集才开始测试。

* “LLM 即评委”的可规模化评估
研究任务的输出是开放的,难以程序化评估。Anthropic 使用一个 LLM 评委,根据事实准确性、引文准确性、完整性、来源质量、工具效率等标准进行打分。这种方法在有明确答案的测试用例上尤其有效,从而能够规模化地评估成百上千的输出。

* 人工评估捕捉自动化盲点
自动化评估总有盲点。人工测试能发现许多边缘案例,如幻觉、系统故障或微妙的偏见 (例如,早期智能体偏爱 SEO 优化的“内容农场”而非权威来源)。在 AI 时代,人工评估依然不可或缺。

生产挑战:从代码到可靠服务的“最后一公里”

将原型转化为可靠的生产系统,这段“最后一公里”往往占据了旅程的大部分。

> 在智能体系统中,错误的复合效应意味着,传统软件中的小问题,也可能让智能体彻底偏离轨道。

在实践中,有以下关键挑战需要克服:

1. 状态与错误叠加: 智能体是长时运行且有状态的。系统必须具备从错误中恢复的能力,而非简单重启。同时,利用模型智能优雅地处理故障 (例如,告知智能体工具失效,让其自行适应) 是一种有效策略。

2. 调试的新思路: 由于智能体的非确定性,传统调试方法难以奏效。Anthropic 引入了全链路的生产环境追踪,在保护用户隐私的前提下,监控智能体的决策模式和交互结构,从而系统性地诊断和修复问题。

3. 部署的精心协调: 智能体系统是高度状态化的。为避免部署更新时破坏正在运行的任务,团队采用了“彩虹部署” (Rainbow Deployments)(https://brandon.dimcheff.com/2018/02/rainbow-deploys-with-kubernetes) 策略,让新旧版本同时运行,逐步迁移流量。

4. 同步执行的瓶颈: 目前的同步执行模式简化了协调,但也造成了瓶颈。未来,异步执行将释放更大的并行潜力,尽管这会带来状态一致性、错误传播等新挑战,但 Anthropic 相信性能的提升将证明其价值。

结语

尽管挑战重重,多智能体系统已在开放式研究任务中证明了其巨大价值。用户反馈显示,Claude 帮助他们发现了未曾考虑的商机、梳理了复杂的医疗选项、解决了棘手的技术难题,节省了数天的工作量。

Anthropic 相信,通过精心的工程设计、全面的测试、细致的提示与工具设计、稳健的运维实践,以及跨团队的紧密协作,多智能体系统能够在生产规模上可靠运行,并从根本上改变人们解决复杂问题的方式。

参考链接:
[1] https://www.anthropic.com/engineering/built-multi-agent-research-system
[2] https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking#interleaved-thinking
[3] https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
[4] https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents/prompts