模型即产品

Tuesday, March 25, 2025 - 大模型 - AI Model Product Multimodal

近年来,人们一直在推测下一轮人工智能发展的方向会是什么?是智能代理?推理引擎?还是真正的多模态?

我认为现在可以断言了:模型即产品。

当前的研究和市场发展趋势都指向这一方向。

* 通用模型扩展进展缓慢。 这正是 GPT-4.5 发布传递的一个关键信息:能力的增长是线性的,而计算成本却呈几何级数增长。即便过去两年在训练效率和基础设施方面取得了显著进展,OpenAI 也无法以可承受的价格部署这个巨型模型。
* 定向训练的效果显著。 强化学习与推理的结合使模型能够突然开始学习任务。这不是传统的机器学习,也不是基础模型,而是一种新的秘密武器。即便是微型模型,也在数学方面表现出惊人的能力。代码模型不再只是生成代码,而是可以自己管理整个代码库。即使在上下文信息不足且未经过专门训练的情况下,Claude 也能成功完成Pokémon GO游戏。
* 推理成本正在迅速下降。 DeepSeek 最近的优化意味着,现有的 GPU 已经可以满足全球所有人每天 1 万 tokens 的前沿模型需求。根本没有这么大的需求。对于模型提供商来说,通过销售 tokens 的经济模式已经不可持续:他们必须向价值链上游移动。

这个方向也令人不安。所有投资者都押注在应用层。但在人工智能发展的下一个阶段,应用层很可能率先被自动化和颠覆。

未来模型的形态

近期,我们已经看到了新一代“模型即产品”的两个典型案例:OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。

关于 DeepResearch,很多人存在误解,而各种开放和封闭的克隆版本更是加剧了这种误解。OpenAI 并未在 O3 的基础上构建封装器。他们训练了一个全新的模型,能够在内部执行搜索,无需任何外部调用、提示或编排:

> 该模型掌握了核心的浏览能力(搜索、点击、滚动、解释文件)……以及如何推理并综合大量网站的搜索结果,以找到特定的信息或通过强化学习训练编写全面的报告。

DeepResearch 并非标准的 LLM,也不是标准的聊天机器人。它是一种新型的研究语言模型,专门设计用于执行端到端的搜索任务。对于认真使用该模型的人来说,这种差异立刻显现出来:该模型生成包含一致结构和底层来源分析过程的冗长报告。相比之下,正如 Hanchung Lee 所强调的,包括 Perplexity 和 Google 的变体在内的其他 DeepSearch 尝试,都只是带有一些调整的普通模型:

> Google 的 Gemini 和 Perplexity 的聊天助手也提供“Deep Research”功能,但两者都没有发布任何关于他们如何优化模型或系统以完成任务的文献,也没有进行任何实质性的定量评估……我们假设所做的微调工作并不重要。

Anthropic 一直在清晰阐述其当前的愿景。去年 12 月,他们提出了一个有争议但(在我看来)正确的智能代理模型定义。与 DeepSearch 类似,智能代理必须在内部执行目标任务:它们“动态地指导自己的过程和工具使用,保持对如何完成任务的控制”。

大多数智能代理初创公司目前构建的不是智能代理,而是工作流,即“通过预定义的代码路径编排 LLM 和工具的系统”。工作流可能仍然会带来一些价值,尤其是在垂直领域适配方面。然而,对于目前在大型实验室工作的人来说,显而易见的是,自主系统的所有重大进展都将首先通过重新设计模型来实现。

Claude 3.7 的发布很好地证明了这一点。该模型主要针对复杂的代码使用场景进行训练,Devin 等工具的工作流适配在软件工程基准测试 (SWE) 中得到了显著提升。

再举一个规模小得多的例子:在 Pleias,我们目前正在努力实现检索增强生成 (RAG) 的自动化。目前的 RAG 系统是许多相互关联但脆弱的工作流:路由、分块、重新排序、查询解释、查询扩展、来源情境化、搜索工程。随着不断发展的训练技术堆栈,完全有可能将所有这些过程整合成为可能。我们可以将它们捆绑到两个独立但相互连接的模型中:一个用于数据准备,另一个用于搜索、检索和报告生成。这需要精心设计的合成管道和全新的强化学习奖励函数。

所有这些在实践中意味着:转移复杂性。训练预测了广泛的操作和极端情况,因此部署变得更加简单。但在这个过程中,大部分价值现在是由模型训练者创造的,并且很可能最终也被他们捕获。简而言之,Claude 的目标是颠覆和取代当前的工作流,比如 Llama Index 的这个基本“代理”系统:

!Llama Index Basic Agent

取而代之的是:

!Claude Agent

训练或被训练

重申一下:大型实验室的进步并不是出于隐藏的目的。虽然他们有时可能不透明,但他们公开了一切:他们将进行捆绑,他们将进入应用层,并且他们将尝试在那里捕获大部分价值。商业后果非常明显。Databricks 的 Gen AI 副总裁 Naveen Rao 对此进行了很好的阐述

> 所有封闭式 AI 模型提供商将在未来 2-3 年内停止销售 API。只有开放模型才能通过 API 获得……封闭式模型提供商正在尝试构建非商品化能力,并且他们需要出色的 UI 来交付这些能力。它不再仅仅是一个模型,而是一个带有 UI 的应用程序,用于特定目的。

因此,现在发生的一切都只是一种否认。模型提供商和基于模型构建应用的公司之间的合作蜜月期已经结束。事情可能会朝着两个方向发展:

* Claude Code 和 DeepSearch 是朝着这个方向发展的早期技术和产品实验。您会注意到,DeepSearch 无法通过 API 获得,只能用于为高级订阅创造价值。Claude Code 是一个极简的终端集成。奇怪的是,虽然 Claude 3.7 在 Claude Code 中运行完美,但 Cursor 却难以应付,我已经看到一些高端用户因此取消了订阅。真正的 LLM 代理不关心预先存在的工作流:它们会取代它。
* 最引人注目的封装器现在正在争先恐后地成为混合 AI 训练公司。他们确实有一些训练能力,尽管宣传很少。Cursor 的主要资产之一是他们的小型自动完成模型。WindSurf 有他们内部的廉价代码模型 Codium。Perplexity 一直依赖于家庭分类器进行路由,并且最近转向训练他们自己的 DeepSeek 变体以用于搜索目的。
* 对于较小的封装器来说,不会有太大变化,除非大型实验室完全放弃这个市场,否则可能会更加依赖于不可知的推理提供商。我还预计会看到更多对 UI 的关注,这仍然被严重低估了,因为即使是更通用的模型也可能会捆绑常见的部署任务,尤其是对于检索增强生成 (RAG) 而言。

简而言之,对于大多数成功的封装器来说,困境很简单:训练或被训练。他们现在所做的事情既是大型实验室的免费市场研究,甚至是免费的数据设计和生成,因为所有输出最终都是通过模型提供商生成的。

之后会发生什么,谁也说不准。成功的封装器确实具有了解其垂直领域的优势,并且积累了大量宝贵的用户反馈。然而,以我的经验来看,从模型层向下到应用层比从头开始构建全新的训练能力更容易。封装器可能也没有得到投资者的帮助。从我听到的情况来看,人们对训练存在一种负面的两极分化,他们几乎不得不隐藏将成为他们最关键价值的东西:cursor small 和 codium 目前都没有得到适当的记录。

强化学习未被定价

这让我想到真正痛苦的部分:目前所有的人工智能投资都是相关的。基金在以下假设下运作:

* 真正的价值完全在于独立于模型层的应用层,该应用层最适合颠覆现有市场。
* 模型提供商将仅以不断降低的价格出售 tokens,从而使封装器更具盈利能力。
* 封闭模型封装将满足所有现有需求,即使是在对外部依赖性长期存在担忧的受监管行业中。
* 构建任何训练能力都只是在浪费时间。这不仅包括预训练,还包括所有形式的训练。

恐怕这越来越像是一场冒险的赌注,也是一个未能准确评估最新技术发展(尤其是在强化学习方面)的市场失灵。在当前的经济生态系统中,风险投资基金旨在寻找不相关的投资。他们不会跑赢标准普尔 500 指数,但这并不是大型机构投资者所寻求的:他们希望捆绑风险,确保在糟糕的一年里至少有一些事情会奏效。模型训练就像一个教科书般的完美例子:在大多数西方经济体正走向衰退的情况下,它具有巨大的颠覆潜力。然而,模型训练者无法筹集资金,或者至少无法以通常的方式筹集资金。Prime Intellect 是为数不多的有潜力成为前沿实验室的西方人工智能训练公司之一。然而,尽管他们取得了包括训练第一个去中心化 LLM 在内的成就,但他们筹集到的资金仍然没有超过通常的封装器。

除此之外,除了大型实验室之外,目前的训练生态系统非常小。你可以用一只手指数出所有这些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace 预训练团队(实际上很小)……以及一些更多的学术参与者(Allen AI、Eleuther……),他们构建并支持了目前大部分的开放训练基础设施。在欧洲,我知道至少有 7-8 个 LLM 项目将整合 Common Corpus 和我们在 Pleias 开发的一些预训练工具——其余的将是 fineweb,并且很可能是来自 Nous 或 Arcee 的训练后指令集。

目前的融资环境存在一些严重的问题。即使 OpenAI 现在也意识到了这一点。最近,人们感到不满,认为目前的硅谷创业环境中缺乏“针对特定行业或应用的强化学习”。我相信这个信息直接来自 Sam Altman,并且可能会导致下一批 YC 做出一些调整,但这指向了一个更大的转变:很快,大型实验室选择的合作伙伴将不再是 API 客户,而是参与早期训练阶段的相关承包商。

如果模型是产品,你就不一定能独自构建它。搜索和代码是容易实现的:两年来主要的用例,市场几乎成熟,你可以在几个月内发布一个新的 cursor。现在,未来许多利润丰厚的人工智能用例并没有处于这个先进的发展阶段——通常,想想所有这些仍然统治着世界经济大部分领域的基于规则的系统……拥有跨领域专业知识和高度专注的小型专业团队可能最适合解决这个问题——最终成为一旦完成初步工作,潜在的收购对象。我们可以在 UI 方面看到同样的流程。一些首选合作伙伴,如果他们开始进行业务收购,就可以获得封闭式专业模型的独家 API 访问权限。

到目前为止,我还没有提到 DeepSeek 或中国实验室。仅仅是因为 DeepSeek 已经更进一步:不是将模型作为产品,而是作为通用基础设施层。像 OpenAI 和 Anthropic 一样,Lian Wenfeng 公开了他的计划

> 我们认为,目前的阶段是技术创新的爆发,而不是应用的爆发……如果形成完整的上下游产业生态系统,那么我们就不需要自己开发应用了。当然,如果需要,我们开发应用也没有障碍,但研究和技术创新将始终是我们的首要任务。

在这个阶段,只关注应用程序就像“用上次战争的将军来打下一场战争”。恐怕我们已经到了西方很多人甚至没有意识到上次战争已经结束的地步。