「过去两年进展出奇地慢」：GPT-5.5与OpenAI的超级应用野心

2026年4月23日，OpenAI发布了GPT-5.5。

这不是一篇普通的新模型发布稿。技术指标当然亮眼：Terminal-Bench 2.0达到82.7%，OSWorld-Verified达到78.7%（据OpenAI官方发布基准对比），SWE-Bench Pro达到58.6%，FrontierMath Tier 4达到35.4%（上一代是27.1%）。与GPT-5.4相比，它在更少token消耗的同时实现了更高的智能水平——官方说法是”GPT-5.5完成相同Codex任务所需token显著减少”，在Artificial Analysis的编程智能指数上以同类最低的一半成本达到最高水准。

但真正让这次发布值得深究的，不是任何一项基准分数，而是两句话。

第一句来自OpenAI总裁Greg Brockman，在媒体发布会上说：GPT-5.5是迈向”超级应用”（super app）的又一步——将ChatGPT、Codex和AI浏览器统一成一个能够服务企业客户的整合服务。他说的原话是：”这是我们迈向未来计算方式的一个真实步骤——但只是一步，我们期待看到许多后续进展。”

第二句来自首席科学家Jakub Pachocki，谈到未来展望时他说：”我认为，过去两年进展出奇地慢（I think the last two years have been surprisingly slow）。”他接着补充：”短期内会有相当显著的改进，中期内会有极其显著的改进。”

把这两句话放在一起，才能看清OpenAI现在真正在做什么，以及它对自己过去的判断，以及对接下来会发生什么的判断。

一、”超级应用”的能力逻辑：与微信和X的本质差异

“超级应用”这个词，科技行业已经讨论了将近二十年。微信在中国证明了它的商业可行性——把社交、支付、小程序、政务、出行整合在一个入口里，靠网络效应形成无法被单点突破的生态护城河。Elon Musk把收购Twitter改造成X的核心愿景，也是打造美国版超级应用——把社交流量变现成金融、购物、短视频和通讯的统一平台。现在，OpenAI联合创始人Greg Brockman在媒体发布会上公开宣布：GPT-5.5是他们迈向同一目标的具体一步。

但OpenAI版本的”超级应用”，和微信或X的底层逻辑完全不同，甚至有着根本性的区别。

微信的超级应用是平台逻辑：把各种独立的服务和应用，整合在同一个壳子里，通过降低用户的切换成本和建立生态黏性来锁定流量。它的竞争壁垒，在于网络规模和生态宽度，而不是任何单一服务的质量。X的超级应用是流量逻辑：把已有的注意力池子重新货币化，通过新功能吸引用户在同一个地方完成更多的事情，提高每用户收入。

OpenAI想做的是第三种，也是这三者中技术门槛最高的一种：能力逻辑——把目前分散在ChatGPT（通用对话）、Codex（自主编码代理）和AI浏览器（网络研究和信息操作）中的AI能力，统一成一个能够自主规划、自主执行、自主检查和自主迭代的智能系统。

在能力逻辑下，用户不需要主动管理工具的切换。你告诉系统”帮我分析这个季度的销售数据，找出最值得投入的三个市场，并草拟一份给董事会的报告”——AI自己知道什么时候该查询数据库、什么时候该写代码做统计分析、什么时候该搜索外部行业信息来补充背景、什么时候该切换到文档写作模式、什么时候该循环检查数字是否一致、什么时候该停下来请求人工确认。

这不是”更聪明的Siri”，也不是”能写代码的ChatGPT”。这是把计算机工作流的主控权，从人类转移给AI的系统性架构。

GPT-5.5的技术规格，恰好是在为这个架构铺路：它在Terminal-Bench 2.0（测试复杂命令行工作流的规划能力和工具协调能力）上达到了82.7%，比GPT-5.4的75.1%提升了7.6个百分点。它在OSWorld-Verified（测试计算机GUI操作能力，即直接操控软件界面）上达到了78.7%（据OpenAI官方发布基准对比），目前领先Anthropic Claude Opus 4.7的78.0%和此前所有模型。它在BrowseComp（测试复杂多步骤网络研究能力）上达到了84.4%。

这三项能力，恰好对应”超级应用”需要的三个核心子系统：自主执行命令行和API操作、操控软件界面完成图形任务、在网络上自主检索和核实信息。在没有这三项能力之前，”超级应用”只是一个美好的愿景；当这三项能力同时达到足够高的水准，它就变成了一个可以开始落地的工程问题。

二、”过去两年出奇地慢”：一个首席科学家的坦诚

Jakub Pachocki的这句话，需要在多个层面上解读。

第一层：信号管理。这句话向外部传递的信息是：OpenAI对自己过去两年的进展速度不满意，但对未来有信心。在Pachocki的框架里，GPT-5.5不是一个令人满意的里程碑，而是一个”终于开始进入正常节奏”的节点。这种表达方式，在管理市场预期上非常精准——它同时表达了”我们知道过去不够好”和”接下来会不一样”两个信息，且都有可信度。

第二层：竞争宣言。距离GPT-5.4发布只有6周，GPT-5.5就上线了。而Pachocki说的是”这才是开始”——短期内会有”相当显著的改进”，中期内会有”极其显著的改进”。这不是对竞争对手的直接攻击，而是一种更有力的姿态：你们看到的当前状态，已经是我们认为”进展缓慢”之后的结果。接下来，才是真正的加速。

第三层，也是最值得追问的：为什么会慢？

如果仔细回顾2024年到2026年初的时间线，OpenAI在这个阶段的确经历了一段明显的外部视角的”减速”。GPT-5在公布时间上反复推迟；o1/o3/o4系列在推理能力上有突破，但在通用性和实用性上被广泛批评为”很聪明但很难用”；Sora虽然在视频生成上震惊了行业，但商业化落地远比预期慢。与此同时，Anthropic的Claude系列在代码质量上持续占据企业用户心智，Google的Gemini系列在多模态和企业应用整合上步步为营。

外部观察者能感受到OpenAI的节奏放缓了，但OpenAI从来没有正面承认过”慢”这个字。Pachocki在发布会上说出这句话，是第一次官方层面承认：是的，我们知道自己慢过。

从可以拼接的公开信息来推断，”慢”的原因可能涉及几个维度：其一，推理成本高企。大模型的推理成本在2024-2025年仍然远高于实用部署的经济临界点，限制了OpenAI在消费级产品上的规模化部署速度。其二，监管和安全评估成本。随着前沿模型能力越来越强，安全评估流程越来越复杂，发布前的测试周期越来越长。GPT-5.5发布前，OpenAI与近200家受信任的早期访问合作伙伴收集了真实使用案例的反馈，并进行了专项的网络安全和生物技术能力测试。这个流程本身，就需要数月时间。其三，组织扩张的协调成本。从2022年的几百人到2026年的几千人，OpenAI的组织规模扩大了数倍，随之而来的是协调开销的非线性增加。其四，技术债务的消化。GPT-4时代建立的推理框架，在2025-2026年面临了一次大规模的底层重构——这类重构往往是”先停下来把地基重打”，对外表现为速度放缓，但重打完成后可以持续更快地往上建。

GPT-5.5在”更少token完成更复杂任务”上的特定改进，恰好是在解决推理成本高企的问题。当推理成本下降，规模化部署的经济性就改善了；当规模化部署的经济性改善，更多实际工作场景就可以用AI处理；当更多实际场景被AI处理，用户习惯改变，”超级应用”的可能性就变大了。

Pachocki说”接下来会快”，背后是对这条逻辑链条已经打通的自信。

第四层，也是值得保留的反向质疑：6周一个版本真的算”加速”了吗？对于一部分观察者来说，这个节奏其实是”量变的堆叠”——每次迭代的改进是真实的，但每次改进是否都足够大，足以被称为”显著”？Pachocki的”中期会有极其显著改进”，是承诺，也是期望管理。把这句话当作预言来验证，还是当作信号来理解，将决定你如何读接下来的OpenAI发布节奏。

三、用数字读懂规模：4百万、9百万、9亿

在Fortune的报道中，OpenAI透露了一组鲜少被细看的数字：

4百万活跃的Codex用户
9百万付费商业用户（ChatGPT Business和Enterprise订阅）
9亿每周活跃用户

这三个数字，需要放在”超级应用”的战略框架里来读，才能理解它们真正代表什么。

9亿周活跃用户是OpenAI已有的消费级流量基本盘，这个规模已经接近TikTok的量级，在AI应用中没有可比的竞争者。这个规模意味着一件重要的事：OpenAI拥有可以直接测试产品假设的庞大用户试验田——哪些任务最难做、哪些流程最低效、哪里的用户流失率最高、哪里有最大的被AI替代的潜力。这是新功能迭代验证的最快通道。

9百万付费商业用户是GPT-5.5的核心变现基础，也是”超级应用”最初最忠实的用户群。企业用户愿意为每月固定订阅付费，获得的是可预期的AI能力、可信赖的服务水准和可集成的API接口。Brockman在发布会上提到的”超级应用”愿景，明确把企业客户放在第一优先级。这9百万用户，就是从今天的”AI工具订阅”转变为”AI计算基础设施客户”的候选人群。

4百万Codex用户是三个数字里最有战略信号价值的一个。Codex不是面向普通消费者的服务，它是面向开发者和工程师的自主编码代理——你不是用它来”问问题”，而是把真实的工程任务委托给它来完成。4百万这个体量，意味着有400万个经常把工作主控权部分交给AI的技术人员。这正是”超级应用”在前期最容易渗透的用户群，他们已经接受了”让AI做事、我来检查”的工作模式，只需要把这个模式从代码任务延伸到更广泛的工作任务，就是”超级应用”。

纽约梅隆银行的首席信息官Leigh-Ann Russell在Fortune的报道中说出了企业客户最关心的话：”我们在GPT-5.5中看到的，是响应质量的提升，但更重要的是非常令人印象深刻的幻觉抵抗能力。对于高度受监管的机构来说，这变得至关重要，我们正在看到这个模型的阶跃式变化。任何能帮助我们在220多个AI使用场景中更快确立准确性的改进，都直接影响到我们规模化AI应用的速度。”

这里有两个关键信息：第一，大型金融机构已经同时测试了来自OpenAI和Anthropic的多个模型；第二，决定规模化采购的决定性因素不是绝对智能水平，而是在真实工作场景中的可靠性——特别是面对边界模糊的问题时，模型是否会虚构答案。

如果GPT-5.5确实在”幻觉抵抗”上有实质性改进，它打开的不只是纽约梅隆银行一家，而是整个高度监管行业（金融、医疗、法律、政府）的规模化部署闸门。

四、安全评级作为竞争工具：”高”但不”关键”

GPT-5.5的发布，无法绕开Anthropic，以及这个星期Anthropic经历的一次明显安全尴尬。

在媒体发布会上，有记者直接问：GPT-5.5是否具有类似Anthropic Mythos的网络安全能力？这个问题的背景是：本周Anthropic的限制性模型Mythos被一群Discord用户通过猜测存储位置的方式获得了未授权访问，《财富》杂志和多家媒体以”羞辱”来描述这一事件，安全研究人员称”这是完全可预见的失败”。

OpenAI技术团队成员Mia Glaese的回答是标准的外交辞令：”我们有针对网络领域的强大且久经考验的策略，并完善了安全发布模型的持久方法。”但真正值得关注的，是OpenAI主动公布的安全评级信息。

根据OpenAI的内部安全框架，GPT-5.5被评定为”高”（High）网络安全风险级别，但没有达到”关键”（Critical）级别。这不是随机的技术评估结果，而是一个精心设计的产品定位：比”中等”更强大因此更可信，但又没有突破”关键”门槛所触发的额外监管审查和部署限制。

理解这个定位，需要知道OpenAI的安全框架是如何运作的。根据OpenAI发布的安全准备框架，不同风险级别对应不同的部署条件：”中等”风险可以正常发布，”高”风险需要额外的安全措施和合规流程，”关键”风险则需要在没有充分缓解措施的情况下暂停发布。GPT-5.5落在”高”而非”关键”，意味着它可以面向公众发布，但需要特定的使用约束——包括对API访问的额外安全要求（OpenAI明确表示”API访问需要不同的安全措施”，将”很快”推出）。

与此形成对比的是Anthropic Mythos：Mythos被定位为专用网络安全工具，针对的是军事和国家安全级别的网络防御场景，因此接受更严格的访问控制和使用审查。它的高度限制性本身就是卖点——正因为难以获取，所以被认为更强大，因此产生了”值得被窃取”的感知价值，也最终导致了用户试图绕过访问控制的行为。

这揭示了前沿AI安全评级已经不仅仅是技术描述，而是一种战略工具：Anthropic选择了”精英限制型”定位，创造了专属感但也创造了安全风险；OpenAI选择了”高但可控型”定位，保持了更广泛的可访问性但承诺了明确的安全边界。这两种定位，各有市场，也各有代价。

五、对手是习惯，不是Anthropic

理解OpenAI超级应用战略的最反直觉之处在于：它的主要竞争对手，不是Claude Opus 4.7，不是Gemini 3.1 Pro，而是用户二十年来建立的工作习惯。

企业工作流是一套极其固化的系统：Excel用来做数据处理和财务模型，Word用来写报告和合同，Slack用来沟通协调，Jira用来管理项目进度，GitHub用来管理代码版本，Salesforce用来跟踪销售线索，ServiceNow用来处理IT工单。这套系统花了二十年建立，每家企业都有大量配套工具、自动化流程、集成接口和人员培训嵌入其中。任何想要”替代”这套系统的新东西，面对的不是技术难题，而是迁移成本和行为习惯的双重阻力。

Microsoft Copilot在Office中推出的Agent Mode，走的是”嵌入现有工具”的路线——让AI融入Excel、Word和PowerPoint的既有界面，而不是要求用户切换到一个全新的系统。这条路线的摩擦成本最低，面对的阻力最小，但上限也相对受限：AI是旧系统里更聪明的插件，而不是新计算范式的中心。

OpenAI的”超级应用”愿景，隐含着一个更激进的假设：当AI足够强大、足够可靠，用户会主动愿意把工作主控权转移给AI。不再是”我用Excel做数据，AI帮我检查一下”，而是”我把需求告诉AI，AI自己决定用什么工具、什么顺序、检查多少遍，最后给我一个结果”。

这个假设，在某些高技术密度的用户群里（比如那4百万Codex用户中的活跃部分），已经开始成立。这批人已经习惯了”我告诉AI要做什么，AI自己想怎么做就怎么做，我只负责检查结果”的工作方式。对他们来说，”超级应用”的逻辑是自然延伸，不是范式跳跃。

但对更广泛的企业用户来说，这个习惯的转变需要时间，也需要失败的代价足够小——当AI犯错，能不能快速发现和纠正，决定了用户愿不愿意真的把主控权交出去。这正是”幻觉抵抗”对规模化采购如此重要的原因：不是要求AI永远正确，而是要求AI在错的时候容易被发现和纠正。

纽约梅隆银行在220个AI使用场景中积累的经验，指向的就是这个方向：能够在高度监管的环境里规模化AI应用的前提，是AI犯错时有足够透明的可查核性，而不是AI永不犯错的承诺。

六、接下来会发生什么——包括整合的真正挑战

根据现有信息，以下几个方向值得在接下来几个月内持续追踪。

API访问时间线。OpenAI表示GPT-5.5的API访问”很快”推出，但未公布具体日期。”API需要不同的安全措施”意味着有一个额外的合规评估过程。这个时间线将直接影响开发者和企业能够用GPT-5.5构建内部系统的速度。对于想要把这次智能跃升整合进自有产品的企业来说，这是关键变量。

ChatGPT和Codex统一的技术挑战。Brockman说”超级应用”会把ChatGPT、Codex和AI浏览器统一成一个服务——但这件事比”共用同一个界面”要复杂得多。ChatGPT是面向普通消费者的服务，受消费者数据隐私监管框架约束；Codex是面向开发者的工具，运行在沙盒环境中，拥有读写文件系统和执行命令的权限；AI浏览器需要处理实时网络数据访问和内容责任。把这三者整合成一个产品，意味着需要在单一用户会话中管理三套不同的权限边界、合规要求和数据处理逻辑。这不只是UX层面的整合，而是身份认证、权限隔离和责任归属的底层架构问题。OpenAI没有公开透露这条整合路径的技术细节——这个问题的解法，将决定”超级应用”什么时候能从愿景变成可以上线的产品。

GPT-5.5 Pro的差异化边界。GPT-5.5 Pro目前仅向ChatGPT Pro/Business/Enterprise用户开放，标准版面向Plus及以上。在BrowseComp上，Pro版达到90.1%，标准版是84.4%——这个差距足以影响企业为Pro版额外付费的决策，特别是在需要复杂多步骤研究的使用场景中。

Pachocki承诺的兑现周期。”过去两年出奇地慢，接下来短期内显著改进、中期内极其显著改进”——如果这个承诺被认真对待，我们可能会在2026年底之前看到节奏明显加快的模型迭代。6周一个版本的速度，很可能会进一步缩短。GPT-5.6甚至GPT-6的出现，可能比任何外部观察者的预期都要早。但值得保持适度的怀疑：自我评价的”慢”，不总是等于外部视角的”快要加速了”——Pachocki的承诺需要后续的实际发布节奏来兑现，而不是单凭这句话。

与Anthropic的定位分化加速。随着GPT-5.5和Mythos在同一周成为热议焦点，一个清晰的竞争格局正在形成：OpenAI走向广度（通用超级应用，更大规模、更低门槛）；Anthropic走向深度（专业工具，更高限制、更强专业性）。这两条路，在2026年下半年会各自面临自己的考验——OpenAI的超级应用逻辑能否真正突破企业工作习惯的阻力，Anthropic的专业工具路线能否在安全事件之后修复用户信任。

GPT-5.5的发布，表面上是又一次例行的前沿模型迭代——6周一次，基准测试再刷新，价格和延迟维持在合理区间。这类新闻很容易淹没在每周层出不穷的AI进展中，让人产生”又是一个新版本”的疲劳感。

但Brockman选择在发布会上说出”超级应用”，Pachocki选择说出”过去两年出奇地慢”——这两句话，透露了一种比技术指标更重要的东西：OpenAI对自己正在进入一个不同节奏的判断。

“出奇地慢”意味着什么？意味着首席科学家对当前的状态并不满意，意味着接下来会快，意味着”超级应用”不是一个在遥远未来才能讨论的愿景，而是一个已经开始动工的建设项目。

当然，首席科学家说”接下来会快”，和”接下来真的快了”，是两件不同的事。6周一个版本已经不慢，但Pachocki用”出奇地慢”来描述它，说明他眼里的基准不是当前的行业节奏，而是AI能力本应有的进化速度。

理解这个区别，是读懂OpenAI未来12个月发布节奏的关键。

参考资料：

OpenAI官方博客，「Introducing GPT-5.5」，2026-04-23，https://openai.com/index/introducing-gpt-5-5/
TechCrunch，「OpenAI releases GPT-5.5, bringing company one step closer to an AI ‘super app’」，2026-04-23，https://techcrunch.com/2026/04/23/openai-chatgpt-gpt-5-5-ai-model-superapp/
Fortune，「OpenAI launches GPT-5.5 just weeks after GPT-5.4 as AI race accelerates」，2026-04-23，https://fortune.com/2026/04/23/openai-releases-gpt-5-5/
CNBC，「OpenAI announces GPT-5.5, its latest artificial intelligence model」，2026-04-23，https://www.cnbc.com/2026/04/23/openai-announces-latest-artificial-intelligence-model.html

「过去两年进展出奇地慢」：GPT-5.5与OpenAI的超级应用野心

一、”超级应用”的能力逻辑：与微信和X的本质差异

二、”过去两年出奇地慢”：一个首席科学家的坦诚

三、用数字读懂规模：4百万、9百万、9亿

四、安全评级作为竞争工具：”高”但不”关键”

五、对手是习惯，不是Anthropic

六、接下来会发生什么——包括整合的真正挑战

Tags:

About

Categories

Recent Posts

Resources