「过去两年进展出奇地慢」:GPT-5.5与OpenAI的超级应用野心
2026年4月23日,OpenAI发布了GPT-5.5。
这不是一篇普通的新模型发布稿。技术指标当然亮眼:Terminal-Bench 2.0达到82.7%,OSWorld-Verified达到78.7%(据OpenAI官方发布基准对比),SWE-Bench Pro达到58.6%,FrontierMath Tier 4达到35.4%(上一代是27.1%)。与GPT-5.4相比,它在更少token消耗的同时实现了更高的智能水平——官方说法是”GPT-5.5完成相同Codex任务所需token显著减少”,在Artificial Analysis的编程智能指数上以同类最低的一半成本达到最高水准。
但真正让这次发布值得深究的,不是任何一项基准分数,而是两句话。
第一句来自OpenAI总裁Greg Brockman,在媒体发布会上说:GPT-5.5是迈向”超级应用”(super app)的又一步——将ChatGPT、Codex和AI浏览器统一成一个能够服务企业客户的整合服务。他说的原话是:”这是我们迈向未来计算方式的一个真实步骤——但只是一步,我们期待看到许多后续进展。”
第二句来自首席科学家Jakub Pachocki,谈到未来展望时他说:”我认为,过去两年进展出奇地慢(I think the last two years have been surprisingly slow)。”他接着补充:”短期内会有相当显著的改进,中期内会有极其显著的改进。”
把这两句话放在一起,才能看清OpenAI现在真正在做什么,以及它对自己过去的判断,以及对接下来会发生什么的判断。
一、”超级应用”的能力逻辑:与微信和X的本质差异
“超级应用”这个词,科技行业已经讨论了将近二十年。微信在中国证明了它的商业可行性——把社交、支付、小程序、政务、出行整合在一个入口里,靠网络效应形成无法被单点突破的生态护城河。Elon Musk把收购Twitter改造成X的核心愿景,也是打造美国版超级应用——把社交流量变现成金融、购物、短视频和通讯的统一平台。现在,OpenAI联合创始人Greg Brockman在媒体发布会上公开宣布:GPT-5.5是他们迈向同一目标的具体一步。
但OpenAI版本的”超级应用”,和微信或X的底层逻辑完全不同,甚至有着根本性的区别。
微信的超级应用是平台逻辑:把各种独立的服务和应用,整合在同一个壳子里,通过降低用户的切换成本和建立生态黏性来锁定流量。它的竞争壁垒,在于网络规模和生态宽度,而不是任何单一服务的质量。X的超级应用是流量逻辑:把已有的注意力池子重新货币化,通过新功能吸引用户在同一个地方完成更多的事情,提高每用户收入。
OpenAI想做的是第三种,也是这三者中技术门槛最高的一种:能力逻辑——把目前分散在ChatGPT(通用对话)、Codex(自主编码代理)和AI浏览器(网络研究和信息操作)中的AI能力,统一成一个能够自主规划、自主执行、自主检查和自主迭代的智能系统。
在能力逻辑下,用户不需要主动管理工具的切换。你告诉系统”帮我分析这个季度的销售数据,找出最值得投入的三个市场,并草拟一份给董事会的报告”——AI自己知道什么时候该查询数据库、什么时候该写代码做统计分析、什么时候该搜索外部行业信息来补充背景、什么时候该切换到文档写作模式、什么时候该循环检查数字是否一致、什么时候该停下来请求人工确认。
这不是”更聪明的Siri”,也不是”能写代码的ChatGPT”。这是把计算机工作流的主控权,从人类转移给AI的系统性架构。
GPT-5.5的技术规格,恰好是在为这个架构铺路:它在Terminal-Bench 2.0(测试复杂命令行工作流的规划能力和工具协调能力)上达到了82.7%,比GPT-5.4的75.1%提升了7.6个百分点。它在OSWorld-Verified(测试计算机GUI操作能力,即直接操控软件界面)上达到了78.7%(据OpenAI官方发布基准对比),目前领先Anthropic Claude Opus 4.7的78.0%和此前所有模型。它在BrowseComp(测试复杂多步骤网络研究能力)上达到了84.4%。
这三项能力,恰好对应”超级应用”需要的三个核心子系统:自主执行命令行和API操作、操控软件界面完成图形任务、在网络上自主检索和核实信息。在没有这三项能力之前,”超级应用”只是一个美好的愿景;当这三项能力同时达到足够高的水准,它就变成了一个可以开始落地的工程问题。
二、”过去两年出奇地慢”:一个首席科学家的坦诚
Jakub Pachocki的这句话,需要在多个层面上解读。
第一层:信号管理。这句话向外部传递的信息是:OpenAI对自己过去两年的进展速度不满意,但对未来有信心。在Pachocki的框架里,GPT-5.5不是一个令人满意的里程碑,而是一个”终于开始进入正常节奏”的节点。这种表达方式,在管理市场预期上非常精准——它同时表达了”我们知道过去不够好”和”接下来会不一样”两个信息,且都有可信度。
第二层:竞争宣言。距离GPT-5.4发布只有6周,GPT-5.5就上线了。而Pachocki说的是”这才是开始”——短期内会有”相当显著的改进”,中期内会有”极其显著的改进”。这不是对竞争对手的直接攻击,而是一种更有力的姿态:你们看到的当前状态,已经是我们认为”进展缓慢”之后的结果。接下来,才是真正的加速。
第三层,也是最值得追问的:为什么会慢?
如果仔细回顾2024年到2026年初的时间线,OpenAI在这个阶段的确经历了一段明显的外部视角的”减速”。GPT-5在公布时间上反复推迟;o1/o3/o4系列在推理能力上有突破,但在通用性和实用性上被广泛批评为”很聪明但很难用”;Sora虽然在视频生成上震惊了行业,但商业化落地远比预期慢。与此同时,Anthropic的Claude系列在代码质量上持续占据企业用户心智,Google的Gemini系列在多模态和企业应用整合上步步为营。
外部观察者能感受到OpenAI的节奏放缓了,但OpenAI从来没有正面承认过”慢”这个字。Pachocki在发布会上说出这句话,是第一次官方层面承认:是的,我们知道自己慢过。
从可以拼接的公开信息来推断,”慢”的原因可能涉及几个维度:其一,推理成本高企。大模型的推理成本在2024-2025年仍然远高于实用部署的经济临界点,限制了OpenAI在消费级产品上的规模化部署速度。其二,监管和安全评估成本。随着前沿模型能力越来越强,安全评估流程越来越复杂,发布前的测试周期越来越长。GPT-5.5发布前,OpenAI与近200家受信任的早期访问合作伙伴收集了真实使用案例的反馈,并进行了专项的网络安全和生物技术能力测试。这个流程本身,就需要数月时间。其三,组织扩张的协调成本。从2022年的几百人到2026年的几千人,OpenAI的组织规模扩大了数倍,随之而来的是协调开销的非线性增加。其四,技术债务的消化。GPT-4时代建立的推理框架,在2025-2026年面临了一次大规模的底层重构——这类重构往往是”先停下来把地基重打”,对外表现为速度放缓,但重打完成后可以持续更快地往上建。
GPT-5.5在”更少token完成更复杂任务”上的特定改进,恰好是在解决推理成本高企的问题。当推理成本下降,规模化部署的经济性就改善了;当规模化部署的经济性改善,更多实际工作场景就可以用AI处理;当更多实际场景被AI处理,用户习惯改变,”超级应用”的可能性就变大了。
Pachocki说”接下来会快”,背后是对这条逻辑链条已经打通的自信。
第四层,也是值得保留的反向质疑:6周一个版本真的算”加速”了吗?对于一部分观察者来说,这个节奏其实是”量变的堆叠”——每次迭代的改进是真实的,但每次改进是否都足够大,足以被称为”显著”?Pachocki的”中期会有极其显著改进”,是承诺,也是期望管理。把这句话当作预言来验证,还是当作信号来理解,将决定你如何读接下来的OpenAI发布节奏。
三、用数字读懂规模:4百万、9百万、9亿
在Fortune的报道中,OpenAI透露了一组鲜少被细看的数字:
- 4百万活跃的Codex用户
- 9百万付费商业用户(ChatGPT Business和Enterprise订阅)
- 9亿每周活跃用户
这三个数字,需要放在”超级应用”的战略框架里来读,才能理解它们真正代表什么。
9亿周活跃用户是OpenAI已有的消费级流量基本盘,这个规模已经接近TikTok的量级,在AI应用中没有可比的竞争者。这个规模意味着一件重要的事:OpenAI拥有可以直接测试产品假设的庞大用户试验田——哪些任务最难做、哪些流程最低效、哪里的用户流失率最高、哪里有最大的被AI替代的潜力。这是新功能迭代验证的最快通道。
9百万付费商业用户是GPT-5.5的核心变现基础,也是”超级应用”最初最忠实的用户群。企业用户愿意为每月固定订阅付费,获得的是可预期的AI能力、可信赖的服务水准和可集成的API接口。Brockman在发布会上提到的”超级应用”愿景,明确把企业客户放在第一优先级。这9百万用户,就是从今天的”AI工具订阅”转变为”AI计算基础设施客户”的候选人群。
4百万Codex用户是三个数字里最有战略信号价值的一个。Codex不是面向普通消费者的服务,它是面向开发者和工程师的自主编码代理——你不是用它来”问问题”,而是把真实的工程任务委托给它来完成。4百万这个体量,意味着有400万个经常把工作主控权部分交给AI的技术人员。这正是”超级应用”在前期最容易渗透的用户群,他们已经接受了”让AI做事、我来检查”的工作模式,只需要把这个模式从代码任务延伸到更广泛的工作任务,就是”超级应用”。
纽约梅隆银行的首席信息官Leigh-Ann Russell在Fortune的报道中说出了企业客户最关心的话:”我们在GPT-5.5中看到的,是响应质量的提升,但更重要的是非常令人印象深刻的幻觉抵抗能力。对于高度受监管的机构来说,这变得至关重要,我们正在看到这个模型的阶跃式变化。任何能帮助我们在220多个AI使用场景中更快确立准确性的改进,都直接影响到我们规模化AI应用的速度。”
这里有两个关键信息:第一,大型金融机构已经同时测试了来自OpenAI和Anthropic的多个模型;第二,决定规模化采购的决定性因素不是绝对智能水平,而是在真实工作场景中的可靠性——特别是面对边界模糊的问题时,模型是否会虚构答案。
如果GPT-5.5确实在”幻觉抵抗”上有实质性改进,它打开的不只是纽约梅隆银行一家,而是整个高度监管行业(金融、医疗、法律、政府)的规模化部署闸门。
四、安全评级作为竞争工具:”高”但不”关键”
GPT-5.5的发布,无法绕开Anthropic,以及这个星期Anthropic经历的一次明显安全尴尬。
在媒体发布会上,有记者直接问:GPT-5.5是否具有类似Anthropic Mythos的网络安全能力?这个问题的背景是:本周Anthropic的限制性模型Mythos被一群Discord用户通过猜测存储位置的方式获得了未授权访问,《财富》杂志和多家媒体以”羞辱”来描述这一事件,安全研究人员称”这是完全可预见的失败”。
OpenAI技术团队成员Mia Glaese的回答是标准的外交辞令:”我们有针对网络领域的强大且久经考验的策略,并完善了安全发布模型的持久方法。”但真正值得关注的,是OpenAI主动公布的安全评级信息。
根据OpenAI的内部安全框架,GPT-5.5被评定为”高”(High)网络安全风险级别,但没有达到”关键”(Critical)级别。这不是随机的技术评估结果,而是一个精心设计的产品定位:比”中等”更强大因此更可信,但又没有突破”关键”门槛所触发的额外监管审查和部署限制。
理解这个定位,需要知道OpenAI的安全框架是如何运作的。根据OpenAI发布的安全准备框架,不同风险级别对应不同的部署条件:”中等”风险可以正常发布,”高”风险需要额外的安全措施和合规流程,”关键”风险则需要在没有充分缓解措施的情况下暂停发布。GPT-5.5落在”高”而非”关键”,意味着它可以面向公众发布,但需要特定的使用约束——包括对API访问的额外安全要求(OpenAI明确表示”API访问需要不同的安全措施”,将”很快”推出)。
与此形成对比的是Anthropic Mythos:Mythos被定位为专用网络安全工具,针对的是军事和国家安全级别的网络防御场景,因此接受更严格的访问控制和使用审查。它的高度限制性本身就是卖点——正因为难以获取,所以被认为更强大,因此产生了”值得被窃取”的感知价值,也最终导致了用户试图绕过访问控制的行为。
这揭示了前沿AI安全评级已经不仅仅是技术描述,而是一种战略工具:Anthropic选择了”精英限制型”定位,创造了专属感但也创造了安全风险;OpenAI选择了”高但可控型”定位,保持了更广泛的可访问性但承诺了明确的安全边界。这两种定位,各有市场,也各有代价。
五、对手是习惯,不是Anthropic
理解OpenAI超级应用战略的最反直觉之处在于:它的主要竞争对手,不是Claude Opus 4.7,不是Gemini 3.1 Pro,而是用户二十年来建立的工作习惯。
企业工作流是一套极其固化的系统:Excel用来做数据处理和财务模型,Word用来写报告和合同,Slack用来沟通协调,Jira用来管理项目进度,GitHub用来管理代码版本,Salesforce用来跟踪销售线索,ServiceNow用来处理IT工单。这套系统花了二十年建立,每家企业都有大量配套工具、自动化流程、集成接口和人员培训嵌入其中。任何想要”替代”这套系统的新东西,面对的不是技术难题,而是迁移成本和行为习惯的双重阻力。
Microsoft Copilot在Office中推出的Agent Mode,走的是”嵌入现有工具”的路线——让AI融入Excel、Word和PowerPoint的既有界面,而不是要求用户切换到一个全新的系统。这条路线的摩擦成本最低,面对的阻力最小,但上限也相对受限:AI是旧系统里更聪明的插件,而不是新计算范式的中心。
OpenAI的”超级应用”愿景,隐含着一个更激进的假设:当AI足够强大、足够可靠,用户会主动愿意把工作主控权转移给AI。不再是”我用Excel做数据,AI帮我检查一下”,而是”我把需求告诉AI,AI自己决定用什么工具、什么顺序、检查多少遍,最后给我一个结果”。
这个假设,在某些高技术密度的用户群里(比如那4百万Codex用户中的活跃部分),已经开始成立。这批人已经习惯了”我告诉AI要做什么,AI自己想怎么做就怎么做,我只负责检查结果”的工作方式。对他们来说,”超级应用”的逻辑是自然延伸,不是范式跳跃。
但对更广泛的企业用户来说,这个习惯的转变需要时间,也需要失败的代价足够小——当AI犯错,能不能快速发现和纠正,决定了用户愿不愿意真的把主控权交出去。这正是”幻觉抵抗”对规模化采购如此重要的原因:不是要求AI永远正确,而是要求AI在错的时候容易被发现和纠正。
纽约梅隆银行在220个AI使用场景中积累的经验,指向的就是这个方向:能够在高度监管的环境里规模化AI应用的前提,是AI犯错时有足够透明的可查核性,而不是AI永不犯错的承诺。
六、接下来会发生什么——包括整合的真正挑战
根据现有信息,以下几个方向值得在接下来几个月内持续追踪。
API访问时间线。OpenAI表示GPT-5.5的API访问”很快”推出,但未公布具体日期。”API需要不同的安全措施”意味着有一个额外的合规评估过程。这个时间线将直接影响开发者和企业能够用GPT-5.5构建内部系统的速度。对于想要把这次智能跃升整合进自有产品的企业来说,这是关键变量。
ChatGPT和Codex统一的技术挑战。Brockman说”超级应用”会把ChatGPT、Codex和AI浏览器统一成一个服务——但这件事比”共用同一个界面”要复杂得多。ChatGPT是面向普通消费者的服务,受消费者数据隐私监管框架约束;Codex是面向开发者的工具,运行在沙盒环境中,拥有读写文件系统和执行命令的权限;AI浏览器需要处理实时网络数据访问和内容责任。把这三者整合成一个产品,意味着需要在单一用户会话中管理三套不同的权限边界、合规要求和数据处理逻辑。这不只是UX层面的整合,而是身份认证、权限隔离和责任归属的底层架构问题。OpenAI没有公开透露这条整合路径的技术细节——这个问题的解法,将决定”超级应用”什么时候能从愿景变成可以上线的产品。
GPT-5.5 Pro的差异化边界。GPT-5.5 Pro目前仅向ChatGPT Pro/Business/Enterprise用户开放,标准版面向Plus及以上。在BrowseComp上,Pro版达到90.1%,标准版是84.4%——这个差距足以影响企业为Pro版额外付费的决策,特别是在需要复杂多步骤研究的使用场景中。
Pachocki承诺的兑现周期。”过去两年出奇地慢,接下来短期内显著改进、中期内极其显著改进”——如果这个承诺被认真对待,我们可能会在2026年底之前看到节奏明显加快的模型迭代。6周一个版本的速度,很可能会进一步缩短。GPT-5.6甚至GPT-6的出现,可能比任何外部观察者的预期都要早。但值得保持适度的怀疑:自我评价的”慢”,不总是等于外部视角的”快要加速了”——Pachocki的承诺需要后续的实际发布节奏来兑现,而不是单凭这句话。
与Anthropic的定位分化加速。随着GPT-5.5和Mythos在同一周成为热议焦点,一个清晰的竞争格局正在形成:OpenAI走向广度(通用超级应用,更大规模、更低门槛);Anthropic走向深度(专业工具,更高限制、更强专业性)。这两条路,在2026年下半年会各自面临自己的考验——OpenAI的超级应用逻辑能否真正突破企业工作习惯的阻力,Anthropic的专业工具路线能否在安全事件之后修复用户信任。
GPT-5.5的发布,表面上是又一次例行的前沿模型迭代——6周一次,基准测试再刷新,价格和延迟维持在合理区间。这类新闻很容易淹没在每周层出不穷的AI进展中,让人产生”又是一个新版本”的疲劳感。
但Brockman选择在发布会上说出”超级应用”,Pachocki选择说出”过去两年出奇地慢”——这两句话,透露了一种比技术指标更重要的东西:OpenAI对自己正在进入一个不同节奏的判断。
“出奇地慢”意味着什么?意味着首席科学家对当前的状态并不满意,意味着接下来会快,意味着”超级应用”不是一个在遥远未来才能讨论的愿景,而是一个已经开始动工的建设项目。
当然,首席科学家说”接下来会快”,和”接下来真的快了”,是两件不同的事。6周一个版本已经不慢,但Pachocki用”出奇地慢”来描述它,说明他眼里的基准不是当前的行业节奏,而是AI能力本应有的进化速度。
理解这个区别,是读懂OpenAI未来12个月发布节奏的关键。
参考资料:
- OpenAI官方博客,「Introducing GPT-5.5」,2026-04-23,https://openai.com/index/introducing-gpt-5-5/
- TechCrunch,「OpenAI releases GPT-5.5, bringing company one step closer to an AI ‘super app’」,2026-04-23,https://techcrunch.com/2026/04/23/openai-chatgpt-gpt-5-5-ai-model-superapp/
- Fortune,「OpenAI launches GPT-5.5 just weeks after GPT-5.4 as AI race accelerates」,2026-04-23,https://fortune.com/2026/04/23/openai-releases-gpt-5-5/
- CNBC,「OpenAI announces GPT-5.5, its latest artificial intelligence model」,2026-04-23,https://www.cnbc.com/2026/04/23/openai-announces-latest-artificial-intelligence-model.html