一个企业级 AI Agent 在处理复杂任务时会遭遇一道隐形的墙:它可以推理、可以调用工具、可以生成代码,但它无法跨会话记住上一次交互发生了什么。每一次新的请求,都是一次失忆后的重新开始。这不是模型能力的问题,而是基础设施层的根本性缺陷。

OpenAI 在 2025 年发布的官方博客《The Next Phase of Enterprise AI》中直接点名了这个问题,并宣布与 AWS、Databricks 联合构建所谓的「Stateful Runtime」——一套让 AI Agent 真正具备持久状态的基础设施层。这个公告的措辞相当克制,但其技术与商业含义远比表面看起来更具颠覆性。

本文试图从基础设施视角拆解这件事的真实意义:OpenAI 在做什么、为什么现在做、谁会因此受益、谁的地盘正在被蚕食——以及大多数分析忽视的那个关键问题:状态管理本质上是一场数据主权的争夺战。


第一层:发生了什么

Stateful Runtime 的技术定义

在 OpenAI 的官方表述中,「Stateful Runtime」指的是一套能够在多轮 Agent 交互之间持久化上下文、工具调用历史、中间结果和用户偏好的执行环境。这与传统的无状态 API 调用模式形成了根本性的对比。

需要说明的是,OpenAI 官方博客对 Stateful Runtime 的技术细节披露相当有限,以下对其架构和功能的描述,部分基于官方措辞的合理推断,部分参考了业界对类似系统的通行理解。在 OpenAI 发布完整技术规范之前,这些推断应被视为分析性假设而非确认事实。

传统的 LLM API 调用模式是无状态的:每次请求携带完整的上下文窗口(context window),服务端处理后返回结果,不保留任何会话状态。这种设计对于简单的问答场景足够用,但对于需要跨越数小时乃至数天才能完成的复杂 Agent 任务,它存在 3 个结构性缺陷:

第一,上下文窗口的物理上限。即便是 GPT-4o 支持的 128K token 窗口,在处理涉及大量工具调用、代码执行日志和中间推理步骤的长程任务时,依然会面临溢出风险。更重要的是,将所有历史状态每次都塞入上下文窗口,推理成本会随任务时长线性甚至超线性增长。根据 OpenAI 官网定价页面(截至 2025 年初),GPT-4o 的输入 token 成本为每百万 token 2.50 美元。一个运行 8 小时、涉及数百次工具调用的 Agent 任务,如果每次都重新传入完整上下文,累计 token 消耗可能达到数百万量级,成本将迅速变得不可接受。

第二,任务中断与恢复的不可能性。无状态架构下,一个运行了 4 小时的 Agent 任务如果因网络中断或模型超时而失败,整个任务必须从头开始。这在生产环境中是不可接受的。以 99.99% 可用性为例,简单的数学计算表明每年仍有约 52 分钟的预期停机时间(365.25×24×60×0.0001≈52.6 分钟)——这是理论计算值而非特定服务商的 SLA 承诺,但它说明了一个基本事实:对于长程 Agent 任务而言,即便是极高可用性的服务,任务中途失败仍是大概率事件。

第三,多 Agent 协作的协调难题。当多个专门化的 Agent 需要协同完成一个任务时(例如,一个负责数据检索、一个负责代码生成、一个负责结果验证),它们之间的状态共享依赖外部存储系统,而这个系统目前没有标准化的接口。Gartner 在 2024 年的多份 AI 相关报告中反复指出,系统集成复杂度是企业 AI 项目失败的主要原因之一(来源: Gartner, “Top Strategic Technology Trends 2024”),这在很大程度上正是多 Agent 协作状态管理混乱的直接体现。

OpenAI 提出的 Stateful Runtime 试图在基础设施层解决上述 3 个问题。根据官方博客的概括性描述,这套系统的方向是提供持久化的 Agent 执行上下文、跨会话的记忆存储、以及与企业数据系统的集成接口——尽管具体的技术实现细节尚未公开。

技术演进的历史背景

理解 Stateful Runtime 的意义,需要将其放在更长的技术演进脉络中审视。

计算机科学中「有状态」与「无状态」架构的争论由来已久。1990 年代的早期 Web 应用是有状态的——服务端为每个用户维护会话(session),但这带来了严重的扩展性问题。随后,REST 架构的兴起将「无状态」确立为 Web 服务的设计原则,每次 HTTP 请求携带所有必要信息,服务端不保留会话状态。这一设计使得 Web 服务可以水平扩展,支撑了互联网规模的应用。

然而,「无状态」的代价是将状态管理的复杂性转移给了客户端或外部存储系统。对于简单的 Web 应用,这个代价是可以接受的。但对于需要长期运行、持续推理的 AI Agent,这个代价变得难以承受。

从这个角度看,Stateful Runtime 并非全新的发明,而是对特定场景需求的理性回归:在 AI Agent 这个特定领域,有状态的执行环境比无状态的 API 调用更符合任务的本质需求。类似的「回归」在技术史上并不罕见——数据库从无事务的文件系统演进到支持 ACID 事务的关系型数据库,正是因为业务场景的复杂性要求更强的状态保证。

合作伙伴的角色分工

OpenAI 选择与 AWS 和 Databricks 共建这套基础设施,而非独立构建,这个选择本身就值得深究。

AWS 的角色:提供底层计算和存储基础设施。AWS 的参与意味着 Stateful Runtime 大概率将深度集成 Amazon S3、DynamoDB 或 Aurora、以及 AWS Lambda 或 ECS 等服务。AWS 在企业市场的渗透率是 OpenAI 无法单独复制的资产——根据 Synergy Research Group 2024 年第四季度的报告,AWS 在全球云基础设施市场占据约 31% 的份额(来源: Synergy Research Group, 2025-01-30)。大量企业的核心数据已经在 AWS 上,让 Agent 在数据所在地附近运行,是降低延迟和合规成本的最优解。数据本地性(data locality)原则在大数据领域早已被验证:Hadoop 生态系统的核心设计哲学之一就是「将计算移向数据,而非将数据移向计算」,Stateful Runtime 在 AI Agent 场景下复用了同样的逻辑。

Databricks 的角色:Databricks 的核心能力是统一的数据与 AI 平台,尤其擅长处理大规模结构化和半结构化数据的管理与治理。在 Stateful Runtime 的语境下,Databricks 的 Unity Catalog(统一数据目录)和 Delta Lake(开放表格式)可以为 Agent 提供企业级的数据访问层——Agent 不仅能「记住」自己做了什么,还能以受治理的方式访问企业的历史数据资产。这是将 Agent 的「工作记忆」与企业的「长期记忆」连接起来的关键桥梁。Databricks 在 2023 年收购 MosaicML 后,已经将模型训练能力整合进其平台,Unity Catalog 也在 2024 年扩展了对 AI 模型和 Feature Store 的治理支持,这些能力与 Stateful Runtime 的需求高度契合。

三方合作的协同逻辑:这 3 家公司的组合并非偶然。OpenAI 提供推理能力,AWS 提供基础设施和企业客户网络,Databricks 提供数据治理和 AI 工程平台。三者的能力边界相对清晰,业务重叠有限,形成了一个互补性强的联盟。相比之下,OpenAI 如果选择与 Microsoft Azure 深度合作(两者已有投资关系),则会面临 Microsoft 自身 Copilot 产品线的利益冲突;如果选择独立构建,则需要在企业数据集成和基础设施运营方面从零起步,时间成本极高。

值得注意的是,OpenAI 官方博客中并未提及 Snowflake 的名字。Snowflake 与 Databricks 在数据平台市场存在直接竞争,OpenAI 选择 Databricks 而非 Snowflake 作为合作伙伴,本身就是一个需要解读的信号。Snowflake 在 2024 年推出了 Snowflake Arctic 模型和 Cortex AI 平台,正在向 AI 应用层扩张,这与 OpenAI 的利益存在潜在冲突,可能是双方未能达成合作的原因之一。截至本文发布时暂无公开信息说明 OpenAI 是否与 Snowflake 有任何类似合作安排。


第二层:为什么重要

Agent 经济的基础设施瓶颈

理解 Stateful Runtime 的重要性,需要先理解 Agent 与传统 AI 助手的本质区别。

传统 AI 助手(如 ChatGPT 的早期形态)是一个「请求-响应」系统:用户提问,AI 回答,交互结束。Agent 的定义则完全不同:Agent 是一个能够自主规划、分解任务、调用外部工具、迭代执行并根据中间结果调整策略的自动化系统。一个真正的企业级 Agent 任务可能包含以下步骤序列:

  1. 读取企业 CRM 数据,识别高风险客户
  2. 调用内部 API 获取这些客户的合同状态
  3. 生成针对每个客户的个性化沟通方案
  4. 通过邮件系统发送,并记录发送状态
  5. 72 小时后检查回复率,调整后续策略

这个任务横跨多个系统、多个时间点、多个工具调用。在无状态架构下,执行这个任务需要外部编排系统维护所有的中间状态——而这个「外部编排系统」正是目前企业 AI 部署中最混乱、最碎片化的环节。

每家企业都在用自己的方式解决这个问题:有人用 LangChain,有人用自研的状态机,有人用数据库加消息队列的组合。a16z 在 2024 年发布的企业 AI 相关调研中指出,企业 AI 工程师将大量时间花在基础设施和集成工作上,而非核心的 AI 逻辑开发(来源: Andreessen Horowitz, “Emerging Architectures for LLM Applications”, 2024 年更新版)。这种碎片化不仅带来工程复杂度,还带来巨大的安全和合规风险——当 Agent 的状态分散在多个未经审计的系统中时,企业根本无法回答「这个 Agent 在过去 30 天里做了什么」这个问题。

OpenAI 提出的 Stateful Runtime,本质上是在说:我们来提供这个「外部编排系统」的标准化版本,并且与你的数据基础设施深度集成。

市场规模与时机的判断

OpenAI 选择在 2025 年推进 Stateful Runtime,而非更早或更晚,有其特定的市场逻辑。

从需求侧看,企业 AI 部署正在从「概念验证」阶段向「生产部署」阶段过渡。McKinsey 在 2024 年 5 月发布的《The State of AI in Early 2024》全球调研报告显示,约 65% 的受访企业表示已在至少一个业务场景中常规使用生成式 AI,较上一年几乎翻倍(来源: McKinsey & Company, 2024-05-21)。但业界普遍反映,从概念验证到生产级部署之间存在巨大鸿沟,状态管理问题是这些项目无法进入生产的重要原因之一。

从供给侧看,模型能力已经越过了「足够好」的门槛。GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 等模型在推理能力上已经能够支撑复杂的 Agent 任务,模型能力不再是主要瓶颈,基础设施成为了新的限制因素。这是 OpenAI 将注意力转向基础设施层的最重要信号:当模型层的竞争趋于同质化,差异化必须在基础设施层建立。

从 API 提供商到基础设施层

这是 OpenAI 战略定位的重大转变,也是这件事最值得关注的商业逻辑。

在 Stateful Runtime 之前,OpenAI 的商业模式本质上是一个 API 提供商:企业调用 OpenAI 的 API,按 token 付费,OpenAI 提供模型推理能力,其他所有事情(应用逻辑、状态管理、数据集成)都由企业自己或第三方工具负责。

这种模式存在一个根本性的脆弱性:OpenAI 在企业技术栈中的位置是可替换的。如果 Anthropic 的 Claude 在某个任务上表现更好,或者价格更低,企业切换的成本相对有限——主要是 prompt 工程的调整和 API 接口的适配,不涉及数据迁移或基础设施重建。

这种可替换性在历史上已经有过清晰的先例。2010 年代初期,云计算市场上的虚拟机提供商(如 Rackspace)在 AWS 推出更丰富的托管服务之前,也面临类似的困境:计算资源本身是商品化的,差异化必须来自更高层的服务。需要指出的是,Rackspace 的困境还涉及资本规模、技术投入等多重因素,并非单纯的「平台层跃迁失败」,但其核心教训——纯粹的资源提供商面临商品化压力——对 OpenAI 的处境具有参考价值。AWS 通过持续推出数据库、消息队列、机器学习等托管服务,将自己从「计算提供商」变成了「企业技术栈的默认基础」。OpenAI 正在尝试类似的路径。

Stateful Runtime 改变了这个方程式。一旦企业的 Agent 状态、执行历史、工作流逻辑都存储在 OpenAI 提供的 Stateful Runtime 中,迁移成本将急剧上升。这不再是换一个 API endpoint 的问题,而是迁移整个 Agent 基础设施的问题——类似于从一个主要云平台迁移到另一个的难度量级。业界普遍认为,企业级云平台迁移通常需要 12 到 36 个月的时间和大量工程投入,这种迁移阻力正是 OpenAI 从「模型即服务」向「平台即服务」跃迁的战略意图所在。


第三层:大多数人没看到什么

状态管理是数据主权的战场

大多数关于 Stateful Runtime 的分析都停留在技术便利性层面:「Agent 终于可以记住东西了,太好了。」但这个叙事遮蔽了一个更深层的问题:谁拥有这些状态数据?

当一个企业的 Agent 在 OpenAI 的 Stateful Runtime 中运行时,以下数据将存储在这套系统中:

  • 工具调用历史:Agent 访问了哪些内部系统,查询了什么数据
  • 中间推理过程:Agent 在做决策时的思维链(chain of thought)
  • 用户交互记录:员工与 Agent 的对话历史
  • 任务执行日志:Agent 执行了哪些操作,操作结果如何
  • 失败与重试记录:Agent 在哪些步骤遭遇了障碍,如何调整策略

这些数据的聚合价值远超单次 API 调用的内容。通过分析这些状态数据,可以推断出企业的业务流程、决策模式、关键人员的工作习惯,甚至战略重点。一家金融机构的 Agent 状态日志,可能揭示其风险评估流程;一家制药公司的 Agent 执行历史,可能暴露其研发管线的优先级排序。

这个问题并非假设性的。2023 年 3 至 4 月间,Samsung 的工程师在使用 ChatGPT 时无意间将内部源代码和会议记录上传至 OpenAI 的服务器,导致 Samsung 随后宣布在内部禁止使用 ChatGPT(来源: Bloomberg, 2023-05-02)。这个案例揭示的是单次交互的数据泄露风险;而 Stateful Runtime 涉及的是持续性、系统性的企业行为数据积累,其潜在风险量级更高。

OpenAI 与 AWS 和 Databricks 的合作在一定程度上缓解了这个问题——AWS 的部署模式允许数据留在企业自己的 AWS 账户中,Databricks 的 Unity Catalog 提供了细粒度的数据访问控制。但「缓解」不等于「解决」。企业需要在采用 Stateful Runtime 之前,仔细审查数据驻留协议、访问控制机制和审计日志的完整性。

这个问题在欧盟市场尤为突出。GDPR 对个人数据的处理有严格规定,而 Agent 的状态数据中很可能包含员工的行为数据——这些数据的跨境传输和存储面临复杂的合规挑战。欧盟 AI Act 已于 2024 年正式生效,其中对「高风险 AI 系统」的数据记录和审计要求,与 Stateful Runtime 的设计方向存在潜在的合规张力。截至本文发布时暂无公开信息说明 OpenAI 的 Stateful Runtime 如何具体处理 GDPR 和 EU AI Act 的合规问题。

历史类比:企业软件的「数据重力」陷阱

数据主权问题在企业软件历史上已经上演过多次,每一次的结局都值得警惕。

最典型的案例是 Salesforce。当 Salesforce 在 2000 年代初期以「Software as a Service」的模式颠覆传统 CRM 市场时,企业客户的主要顾虑之一就是「客户数据存储在 Salesforce 的服务器上,我们能拿回来吗?」Salesforce 通过提供数据导出功能和 API 访问缓解了这个顾虑,但实际上,随着企业在 Salesforce 上积累的客户数据越来越多、定制化工作流越来越复杂,迁移成本变得极高。这就是所谓的「数据重力」(data gravity)效应:数据越多,围绕数据构建的服务和应用就越多,迁移的代价也就越大。

SAP 的案例更为极端。SAP ERP 系统在全球大型企业中的渗透率极高,但其迁移成本之高令人咋舌。根据 Panorama Consulting 多年发布的 ERP 行业报告,ERP 系统的平均迁移项目耗时通常超过 2 年,成本超过预算的比例居高不下(来源: Panorama Consulting Group, “ERP Report”, 多年度发布)。SAP 的「锁定」并非来自技术壁垒,而是来自数据、流程和人员能力的深度嵌入。

OpenAI 的 Stateful Runtime 正在构建类似的「数据重力」。Agent 的执行历史、工作流模板、用户偏好设置——这些数据一旦在 Stateful Runtime 中积累,就会形成强大的迁移阻力。与 Salesforce 和 SAP 不同的是,Stateful Runtime 积累的不仅是业务数据,还包括 AI 决策的逻辑和模式,这些「智能资产」的迁移难度远超结构化的业务数据。

AWS 的双重博弈

OpenAI 选择 AWS 作为合作伙伴,表面上是技术互补,实则是一场精心设计的双向绑定。

从 OpenAI 的角度看,AWS 的企业客户网络是无价的分发渠道。AWS 在全球拥有数以万计的企业客户,这些客户的数据已经在 AWS 上,让他们采用 Stateful Runtime 的摩擦力极低。

但从 AWS 的角度看,这笔交易同样有其精密的算盘。AWS 自己也在构建 AI Agent 能力——Amazon Bedrock 提供了多模型访问,AWS Step Functions 和 Amazon Bedrock Agents 提供了 Agent 编排能力。Amazon Bedrock Agents 在 2024 年已经支持多步骤任务执行和代码解释器功能,与 OpenAI 的 Stateful Runtime 存在功能上的重叠。

这里有一个微妙的竞争动态:AWS 通过合作获得了 OpenAI 的模型能力加持,但同时也在培育一个可能与自己竞争的生态系统。AWS 的理性选择是:在 OpenAI 主导 Agent 层的同时,确保基础设施层(计算、存储、网络)的收益留在自己手中——无论 Agent 层谁赢,AWS 都能从底层基础设施中获益。

这是云厂商在 AI 时代的标准生存策略:做所有人的基础设施,不押注任何单一的应用层赢家。这个策略的历史先例是 AWS 同时为 Netflix 和 Hulu 提供基础设施服务,尽管两者是直接竞争对手。然而,这个策略存在一个内在张力:当 AWS 自己的 Bedrock Agents 与 OpenAI 的 Stateful Runtime 在同一个客户面前竞争时,AWS 的销售团队应该推荐哪个?这个渠道冲突问题在短期内可能被「互补」叙事掩盖,但随着两个产品的功能边界越来越接近,这个矛盾将不可避免地浮出水面。

Databricks 的战略赌注

Databricks 的参与则代表了一个更高风险、更高回报的赌注。

Databricks 的核心竞争力是数据管理和 AI 工程的统一平台。与 Snowflake 的竞争中,Databricks 一直主打「数据 + AI 一体化」的叙事。与 OpenAI 共建 Stateful Runtime,是 Databricks 将这个叙事落地的重要一步:如果企业的 AI Agent 需要访问企业数据,而 Databricks 是这些数据的管理平台,那么 Databricks 就自然成为了 Agent 基础设施的必要组成部分。

从财务数据看,Databricks 的增长势头强劲。根据 The Information 在 2024 年 6 月的报道,Databricks 的年化收入(ARR)已超过 24 亿美元,较 2023 年底的约 16 亿美元大幅增长(来源: The Information, 2024-06-12)。到 2025 年初,多家媒体报道其 ARR 可能已接近或超过 30 亿美元。这个增速在数据平台市场是罕见的,部分原因正是企业对「数据 + AI 一体化」需求的爆发。与 OpenAI 的合作,有望进一步加速这个增速,将 Databricks 的用户群从「数据工程师和数据科学家」扩展到「AI 工程师和 Agent 开发者」。

这个战略的风险在于:它深度依赖 OpenAI 的 Agent 生态成功。如果 OpenAI 的 Stateful Runtime 未能成为行业标准,或者 Anthropic、Google 选择与 Snowflake 合作构建类似的系统,Databricks 在这场赌注中的优势将大打折扣。Snowflake 在 2024 年推出了 Snowflake Cortex Analyst 和 Document AI 功能,正在向 AI Agent 场景渗透,如果 Snowflake 与 Anthropic 或 Google 形成类似的深度合作,将直接挑战 Databricks 在这个联盟中的地位。

更深层的风险是:Databricks 通过与 OpenAI 的合作,将自己的数据平台与特定的 AI 提供商绑定,这可能削弱其作为「中立数据平台」的市场定位。企业客户在选择数据平台时,通常希望避免被单一 AI 提供商锁定——Databricks 与 OpenAI 的深度合作,可能让部分客户重新评估这种担忧。

被忽视的协议层战争

Stateful Runtime 的讨论中,还有一个几乎没有人关注的技术层面:状态序列化协议的标准化

当 Agent 的状态需要在不同系统之间传递时(例如,从 OpenAI 的推理引擎到 AWS 的存储系统,再到 Databricks 的数据平台),这些状态数据需要以某种格式序列化和反序列化。这个格式如果被 OpenAI 掌控,就相当于掌控了 Agent 状态的「语言」——其他 AI 提供商如果想接入这个生态,就必须支持 OpenAI 定义的状态格式。

这一推断基于基础设施竞争的一般规律,而非 OpenAI 已公开的技术决策。 截至本文发布时,OpenAI 尚未公开 Stateful Runtime 的技术规范文档,因此无法判断其状态格式是否是开放标准还是专有协议。但历史上,类似的协议层控制权争夺已经发生过多次,且结局往往对掌控协议的一方极为有利:

  • Microsoft 通过 Office 文件格式(.docx、.xlsx)维持了对办公软件市场长达数十年的控制。即便在 Google Docs 崛起之后,.docx 格式依然是企业文档交换的事实标准。
  • Google 通过 Android 的 API 层控制了移动应用生态。第三方厂商可以使用 Android 的开源代码,但如果想接入 Google Play 服务,就必须遵守 Google 的 API 规范。

值得关注的是,开源社区已经意识到这个风险。Model Context Protocol(MCP)是 Anthropic 在 2024 年提出的开放标准,旨在定义 AI 模型与外部工具和数据源交互的标准接口。MCP 的推出时机耐人寻味——它出现在 OpenAI 加速推进企业基础设施布局的背景下,可以被解读为 Anthropic 试图在协议层建立开放标准,防止 OpenAI 通过专有协议控制 Agent 生态。OpenAI 的 Stateful Runtime 最终选择开放还是封闭的状态格式,将在很大程度上决定这套系统的生态开放程度,也是观察 OpenAI 生态战略意图的重要窗口。

被低估的安全攻击面

还有一个维度几乎在所有分析中缺席:有状态的 Agent 系统引入了全新的安全攻击面

无状态的 API 调用模式在安全上有一个天然的优点:每次请求相互独立,即便某次请求被攻击者操控,其影响范围也相对有限。但有状态的 Agent 系统完全不同——如果攻击者能够污染 Agent 的持久化状态(例如,通过 prompt injection 攻击将恶意指令注入 Agent 的记忆存储),这个恶意指令可能在未来的多次任务执行中持续发挥作用,形成持久性的后门。

安全研究人员将这类攻击称为「memory poisoning」(记忆污染),它是 prompt injection 攻击在有状态 Agent 系统中的升级版本。2024 年,多个安全团队发布了针对基于 RAG(Retrieval-Augmented Generation)系统的记忆污染概念验证攻击,证明了这类攻击的可行性(来源: 多篇学术论文发表于 arXiv 和安全会议,如 USENIX Security 2024 相关议题)。Stateful Runtime 将这个攻击面从单个 RAG 系统扩展到了整个企业 Agent 基础设施层,其潜在影响范围更广、危害更深。

OpenAI 在官方博客中对安全机制的描述相当有限,这是企业采用 Stateful Runtime 之前需要深入追问的关键问题。


第四层:这意味着什么

企业 AI 基础设施的分层重构

Stateful Runtime 的出现,标志着企业 AI 基础设施正在经历一次分层重构。

在此之前,企业 AI 技术栈的分层大致如下:

  • 模型层:OpenAI GPT、Anthropic Claude、Google Gemini
  • 应用层:各类 AI 应用(Copilot、客服机器人、代码助手)
  • 集成层:LangChain、LlamaIndex 等框架
  • 数据层:企业现有的数据库、数据仓库
  • 基础设施层:AWS、Azure、GCP

这个分层中,最混乱的是「集成层」——它承担了状态管理、工具调用、Agent 编排等核心功能,但缺乏标准化,导致大量重复建设和安全隐患。根据 Stack Overflow 2024 年开发者调研(来源: Stack Overflow, “2024 Developer Survey”, 2024-06),LangChain 是 AI 开发者使用最广泛的框架之一,但同时也面临开发者对其抽象层次不稳定、调试困难、生产可靠性不足的普遍反馈。这个「广泛使用但不满意」的现象,正是市场对标准化解决方案的需求信号。

Stateful Runtime 试图吃掉这个「集成层」,将其标准化并纳入 OpenAI 的平台管控范围。如果成功,新的分层将变为:

  • 模型层:OpenAI GPT(以及通过 API 接入的其他模型)
  • Agent 运行时层:OpenAI Stateful Runtime(新增)
  • 数据集成层:Databricks Unity Catalog + AWS 数据服务
  • 基础设施层:AWS

注意这个新分层中,原来的「应用层」和「集成层」被压缩或吸收。企业自建的 Agent 编排逻辑将部分被 Stateful Runtime 替代,LangChain 等第三方框架的价值空间将被压缩。这个重构的受益者是 OpenAI(控制 Agent 运行时层)和 AWS/Databricks(控制数据和基础设施层),而受损者是目前在集成层生存的中间件厂商和框架开发者。

对竞争格局的影响

对 Anthropic 的影响:Anthropic 目前主要通过 AWS Bedrock 和 Google Cloud 分发 Claude。这里有一个有趣的悖论:Anthropic 依赖 AWS 进行分发,而 AWS 同时又是 OpenAI Stateful Runtime 的合作伙伴。Anthropic 推出 MCP 协议的举措,可以被解读为在协议层建立防御阵地的尝试——如果 MCP 成为 AI 工具调用的开放标准,Anthropic 就能在不依赖 OpenAI 基础设施的情况下参与 Agent 生态。截至本文发布时暂无公开信息说明 Anthropic 是否有类似的完整基础设施合作计划。

对 Google 的影响:Google 在 Agent 基础设施方面拥有独特的优势——Vertex AI 提供了模型服务,Google Workspace 提供了天然的企业数据接入点,BigQuery 提供了数据仓库能力。更重要的是,Google 拥有 OpenAI 所没有的一个关键资产:企业员工的实时工作数据。Gmail、Google Calendar、Google Drive 中积累的企业数据,是 Agent 「记忆」最自然的来源之一。Google 在 2024 年推出的 Gemini for Google Workspace 已经在向这个方向发展,其与 Google Workspace 数据的深度集成是 OpenAI 短期内难以匹敌的优势。

对 Microsoft 的影响:Microsoft 通过 Azure OpenAI Service 和 Copilot Studio 已经在企业 Agent 市场占据重要位置。Microsoft 365 Copilot 在 2024 年已经实现了跨 Word、Excel、PowerPoint、Teams 的上下文共享,这实际上是一种针对 Microsoft 生态内部的 Stateful Runtime。OpenAI 的 Stateful Runtime 发布方向似乎是在构建独立于 Microsoft 的企业分发渠道,这种微妙的张力——OpenAI 的最大投资方同时也是其企业市场的潜在竞争对手——截至本文发布时尚未有公开的官方解释,但这种结构性矛盾将随着双方产品功能的重叠加深而变得越来越难以回避。

对 LangChain、LlamaIndex 等框架的影响:Stateful Runtime 的出现,对这些框架既是威胁也是机遇。威胁在于:如果 OpenAI 提供了原生的状态管理能力,企业可能不再需要使用第三方框架来解决这个问题。LangChain 在 2024 年已经推出了 LangGraph,专门针对有状态的 Agent 编排场景,这可以被解读为 LangChain 对 Stateful Runtime 威胁的提前防御。机遇在于:这些框架可以在 Stateful Runtime 之上构建更高层的抽象,专注于 OpenAI 平台未能覆盖的长尾需求——例如,跨多个 AI 提供商的状态同步、特定行业的合规工作流模板等。

前瞻性预判:未来 18 个月的关键节点

基于上述分析,以下是对 Stateful Runtime 生态演进的具体预判(以下为作者基于当前信息的分析性预测,非确定性结论):

预判一(6 个月内):Google 将宣布针对 Google Workspace 的 Agent 状态管理功能,以 Gemini for Workspace 的深度集成为核心卖点,直接挑战 OpenAI Stateful Runtime 在「企业工作数据」场景的竞争力。

预判二(6 到 12 个月内):开源 Agent 运行时框架将出现整合浪潮。目前 LangGraph、AutoGen、CrewAI、LlamaIndex Workflows 等框架各自为战,随着 OpenAI Stateful Runtime 定义了「标准」,开源社区将围绕能否兼容或超越这个标准展开竞争,可能出现 1 到 2 个获得主要云厂商支持的开源 Agent 运行时项目。

预判三(12 到 18 个月内):企业数据主权问题将触发监管关注。欧盟将率先对 AI Agent 的状态数据处理提出具体的合规要求,可能要求企业证明 Agent 的决策过程可审计、状态数据的存储符合数据驻留要求。这将迫使 OpenAI 提供更细粒度的数据控制选项,也将为能够提供「本地部署 Stateful Runtime」的竞争者(包括开源方案)创造市场机会。

预判四(18 个月以上):Stateful Runtime 市场将形成「3+1」格局——OpenAI/AWS/Databricks 阵营、Google/Vertex AI 阵营、Microsoft/Azure 阵营,加上一个由开源工具主导的自托管阵营。这 4 个阵营之间不会形成完全互通的标准,但会出现类似于云存储市场的「有限互操作性」——数据可以在阵营之间迁移,但迁移成本足以形成黏性。

对企业 CIO 的实际意义

如果你是一家大型企业的 CIO 或 CTO,Stateful Runtime 的发布意味着你需要在近期内回答以下几个问题:

第一,采用时机:Stateful Runtime 目前处于早期阶段,生产级的稳定性和 SLA 保障尚不明确。过早采用意味着承担技术风险;过晚采用意味着在竞争对手已经部署生产级 Agent 时,你的团队还在手工维护碎片化的状态管理系统。一个务实的策略是:在非核心业务场景(如内部知识管理、员工自助服务)中率先试点,积累经验的同时保留向其他方案切换的灵活性。

第二,数据主权边界:在将企业的 Agent 状态数据托管给 OpenAI 的 Stateful Runtime 之前,需要明确数据驻留位置、访问控制机制、数据删除权利以及审计日志的完整性。这些条款需要在合同层面明确,而不是依赖服务提供商的默认设置。参考 GDPR 合规实践,建议要求服务提供商提供数据处理协议(DPA)和技术组织措施(TOM)的详细文档。

第三,多云与多模型策略:如果你的企业已经制定了多云策略(同时使用 AWS、Azure、GCP),或者多模型策略(同时使用 OpenAI、Anthropic、Google 的模型),需要评估 Stateful Runtime 是否与这些策略兼容。深度绑定单一提供商的 Agent 运行时,可能与企业的多样化采购策略产生冲突。一个可行的缓解措施是:要求服务提供商支持标准化的数据导出格式,确保在必要时能够以可接受的成本迁移状态数据。

第四,内部能力建设:Stateful Runtime 的采用不能替代企业内部 AI 工程能力的建设。理解 Agent 状态管理的原理、能够审计 Agent 的执行历史、能够在 Stateful Runtime 出现问题时进行故障排查——这些能力需要企业内部的工程团队具备,而不是完全外包给服务提供商。

第五,安全评估:在部署 Stateful Runtime 之前,需要对 memory poisoning 等新型攻击向量进行专项安全评估。企业的红队(red team)应该针对有状态 Agent 系统设计专门的攻击场景测试,验证现有的安全控制措施是否足以应对这类威胁。

技术路线的两个对立视角

在结束本文之前,有必要呈现关于 Stateful Runtime 战略方向的 2 个对立视角,并给出明确判断。

视角一:Stateful Runtime 将成为企业 Agent 基础设施的事实标准

支持这个观点的论据:OpenAI 在企业 AI 市场的品牌认知度最高,多家分析机构的数据显示 OpenAI 在企业 AI 工具市场占据主导份额;与 AWS 和 Databricks 的合作覆盖了企业数据基础设施的核心;通过标准化解决了企业最头疼的 Agent 编排问题;先发优势在基础设施市场尤为重要,一旦企业的 Agent 状态数据沉淀在这套系统中,迁移成本极高。历史上,先发的基础设施标准往往具有极强的持久性——TCP/IP 协议自 1983 年成为 ARPANET 的标准通信协议后,至今仍是互联网的基础。不过需要指出,TCP/IP 的标准化是在政府和学术机构主导下完成的,与商业公司主导的 Agent 基础设施标准化存在本质区别,这个类比的适用边界需要审慎对待。

视角二:Stateful Runtime 将面临严峻的碎片化挑战,难以成为统一标准

支持这个观点的论据:Google 和 Microsoft 都有足够的动机和能力构建竞争性的解决方案,且都拥有 OpenAI 所没有的企业数据接入优势(Google Workspace、Office 365);企业的多云策略天然抵制单一提供商的基础设施锁定;开源社区(LangChain、AutoGen、CrewAI 等)正在快速迭代,GitHub 上 Agent 相关开源项目在 2024 年经历了爆发式增长,开源方案的成熟速度可能超过预期;监管机构对 AI 公司控制企业核心基础设施的担忧正在上升,欧盟已经将「AI 系统的互操作性」列为 EU AI Act 的重要议题。

我的判断:Stateful Runtime 不会成为唯一的标准,但会成为企业市场中最重要的标准之一。更可能的结果是:形成 3 到 4 个主要的 Agent 运行时生态——OpenAI/AWS/Databricks 阵营、Google/Vertex AI 阵营、Microsoft/Azure 阵营,以及一个由开源工具主导的自托管阵营。企业将根据自身的云策略、数据位置和合规要求选择不同的阵营,而不是全面迁移到单一平台。

这个结果对 OpenAI 来说仍然是有利的——在 Agent 基础设施市场占据显著份额,远比目前作为可替换 API 提供商的位置更具战略价值。但这也意味着,Stateful Runtime 的成功在很大程度上取决于 OpenAI 能否在接下来 12 到 18 个月内建立足够深的企业客户粘性,在竞争对手的类似产品成熟之前形成不可逆的生态优势。关键的观测指标包括:Stateful Runtime 的状态格式是否开放、是否支持多模型接入、以及是否提供满足 GDPR 和 EU AI Act 要求的合规选项。这 3 个指标将在很大程度上决定 OpenAI 能否突破「自己生态内的标准」,成为跨生态的行业标准。


结语:基础设施战争的真正赌注

Stateful Runtime 的发布,表面上是一个技术公告,实质上是 OpenAI 对企业 AI 市场控制权的一次战略性宣示。

在 AI 应用层,竞争将永远存在——今天的最佳模型可能在 6 个月后被超越,今天的最佳应用可能在 12 个月后被复制。但基础设施层的竞争遵循不同的规律:一旦企业的核心工作流与某套基础设施深度集成,替换成本以年计、以亿美元计。这个规律在数据库市场(Oracle 的企业客户黏性)、ERP 市场(SAP 的迁移壁垒)、云计算市场(AWS 的数据重力效应)中已经被反复验证。

OpenAI 正在从一家模型公司向一家基础设施公司转型。这个转型的成败,将决定 OpenAI 在未来 10 年的企业市场中是扮演「水电煤」式的基础设施提供商,还是永远在应用层与无数竞争对手厮杀的模型供应商。前者的商业价值以万亿美元计,后者则面临持续的价格压力和市场份额侵蚀。

对于企业决策者而言,现在是设定正确预期的关键时刻:Stateful Runtime 提供的不仅是技术便利,也带来了数据主权、供应商锁定、安全攻击面扩大和生态依赖的新风险。在享受便利之前,先把合同条款、数据治理策略和安全评估做扎实。

对于整个行业而言,真正的问题不是「OpenAI 的 Stateful Runtime 好不好用」,而是「谁将定义 Agent 状态管理的行业标准,以及这个标准是开放的还是封闭的」。历史告诉我们,开放标准往往在长期胜出(HTTP 战胜了 Gopher,TCP/IP 战胜了 OSI),但封闭标准在短期内往往能够通过生态优势获得市场主导地位。OpenAI 的选择——开放还是封闭——将是决定这场战争走向的最关键变量。

这场战争才刚刚开始,而它的结果将在很大程度上决定下一个十年企业软件市场的权力格局。


参考资料

  1. The Next Phase of Enterprise AI — OpenAI 官方博客, 2025

  2. Samsung Bans Staff’s AI Use After Spotting ChatGPT Data Leak — Bloomberg, 2023-05-02

  3. The State of AI in Early 2024: Gen AI Adoption Spikes and Starts to Generate Value — McKinsey & Company, 2024-05-21

  4. Model Context Protocol (MCP) Specification — Anthropic, 2024

  5. EU Artificial Intelligence Act — 欧盟官方立法文件, 2024

  6. Amazon Bedrock Agents — Amazon Web Services 官方页面

  7. Unity Catalog: Open Source Data and AI Governance — Databricks 官方产品页面

  8. Databricks Hits $2.4 Billion in Annualized Revenue — The Information, 2024-06-12

  9. 来源: Synergy Research Group, “Q4 2024 Cloud Infrastructure Market Share Report”, 2025-01-30

  10. 来源: Panorama Consulting Group, “ERP Report” (多年度发布)

  11. 来源: Stack Overflow, “2024 Developer Survey”, 2024-06

  12. Delta Lake: Open-source Storage Framework — Delta Lake 官方文档