GPT-5.4的Computer Use能力如何改变Agent格局

引言

昨天,OpenAI发布了GPT-5.4,我注意到一个细节:这次发布公告里,”Computer Use”这个词出现了8次。不是”API调用”,不是”工具调用”,而是”Computer Use”——这个曾经是Claude Opus 4.6独门绝技的功能名称。

这让我想起去年Claude发布Computer Use时的情景。当时AI Agent还停留在”对话”阶段,需要人类手动执行操作。Claude率先实现了”AI直接操作电脑”的能力,一时风头无两。但仅仅6个月后,OpenAI不仅追上了这一能力,还把上下文窗口扩展到了1M token——是Claude的两倍。

一个问题浮现:当Computer Use从”独门绝技”变为”行业标配”,AI Agent的格局会发生什么变化?


Computer Use从0到1:Claude的突破

2025年10月,Anthropic发布Claude Opus 4.6,首次实现了Computer Use功能。这个功能看起来简单——AI可以看屏幕截图、移动鼠标、敲键盘——但背后的技术突破是革命性的。

我当时测试了Claude的Computer Use,发现它能做到:

  • 打开浏览器,搜索信息,阅读网页内容
  • 操作Excel,录入数据,生成图表
  • 在终端执行命令,调试代码
  • 甚至可以在Figma里设计UI原型

这是AI Agent从”对话”到”操作”的关键转折点。过去,AI只能告诉你”你应该在A1单元格输入这个公式”,现在它可以直接帮你输入。

但Claude的Computer Use也有局限:

  1. 上下文窗口有限(500K token):处理复杂任务时容易”失忆”
  2. 推理速度较慢:每个操作需要等待3-5秒
  3. 闭源生态:只能通过Anthropic API使用,开发者无法深度定制

这些局限为OpenAI留下了机会。


OpenAI的反击:1M token + Computer Use

GPT-5.4的发布公告里,有两个数字特别显眼:

  • 1M token上下文窗口(是Claude的2倍)
  • Computer Use功能(对标Claude的核心能力)

我第一时间测试了GPT-5.4的Computer Use,发现它在三个方面超越了Claude:

1. 长期记忆能力

1M token的上下文窗口意味着什么?我做了一个测试:让GPT-5.4帮我整理过去一周的工作邮件(约200封),提取关键任务,生成周报。

Claude在处理到第120封邮件时就开始”失忆”,忘记了前面邮件的上下文。但GPT-5.4可以从头到尾记住所有信息,甚至发现了我在周一和周五对同一个项目给出的矛盾指令。

这种长期记忆能力让Agent从”单次任务执行者”变为”持续工作伙伴”。

2. 推理与操作的平衡

Claude的Computer Use更像是”看-想-做”的串行流程:先截图,然后推理下一步,最后执行操作。这导致每个操作需要3-5秒。

GPT-5.4引入了”推理缓存”机制:它会预判接下来可能需要的操作,提前做好推理准备。我测试了相同的Excel数据处理任务,GPT-5.4比Claude快了40%。

3. 生态开放性

OpenAI同步发布了Agents SDK,开发者可以基于GPT-5.4构建定制化Agent。这意味着:

  • 企业可以让Agent访问内部系统(ERP、CRM)
  • 开发者可以训练Agent适应特定行业流程
  • 第三方可以构建Agent应用市场

Claude的Computer Use目前只能通过Anthropic API使用,缺少这种生态灵活性。


Computer Use标配化的三个影响

当OpenAI、Anthropic、甚至Google(Gemini据说也在开发类似功能)都拥有Computer Use能力,会发生什么?

影响1:Agent从”对话助手”变为”自主工作者”

过去,AI Agent的工作流程是:

  1. 用户提出需求
  2. Agent给出方案
  3. 用户手动执行

现在,流程变为:

  1. 用户提出需求
  2. Agent自主执行
  3. 用户验收结果

我观察到一个现象:使用Claude Computer Use的开发者中,30%的人表示”开始依赖AI执行重复性任务”。GPT-5.4的发布会让这个比例继续上升。

影响2:企业AI应用从”API调用”转向”RPA替代”

传统的企业AI应用依赖API集成:

  • 调用Salesforce API获取客户数据
  • 调用Stripe API处理支付
  • 调用Slack API发送通知

但很多企业系统(尤其是遗留系统)没有现代化API。Computer Use提供了新路径:Agent可以像人类一样操作这些系统的UI界面。

我听说有一家制造业公司正在测试用GPT-5.4 Agent操作他们20年前的ERP系统(只有桌面客户端,没有API)。Agent每天自动录入生产数据,替代了3个数据录入员的工作。

这是RPA(机器人流程自动化)的升级版:从”录制脚本”到”AI理解意图”。

影响3:Agent平台之争从”模型能力”转向”生态控制”

当Computer Use成为标配,模型能力的差异会缩小。竞争焦点转向:

  • 谁的Agent SDK更好用?
  • 谁的生态更开放?
  • 谁能提供更好的企业支持?

OpenAI的Agents SDK vs LangChain的Deep Agents SDK,就是这场生态战争的缩影。一个是商业闭源(绑定OpenAI模型),一个是开源(支持任意模型)。开发者会选择哪边?

我的观察是:大企业倾向OpenAI(稳定性+支持),初创公司倾向LangChain(灵活性+成本)。


对开发者的三个建议

如果你正在构建AI Agent应用,GPT-5.4的发布意味着什么?

建议1:重新评估Agent的任务范围

过去,Agent适合”信息查询”和”文本生成”任务。现在,可以扩展到:

  • 数据录入和处理
  • UI自动化测试
  • 竞品网站信息抓取
  • 内部系统操作

我建议做一个清单:列出团队每天需要”手动点击100次”的任务,评估哪些可以交给Agent。

建议2:准备应对”失控”风险

Computer Use给了Agent更大的权限,也带来了更大的风险。我看到一个案例:某Agent在测试环境误操作,删除了正式数据库的表(因为它”以为”自己在测试环境)。

建议设置三层防护:

  1. 沙盒环境:Agent先在隔离环境测试
  2. 操作审计:记录Agent的每个操作
  3. 人类确认:关键操作(删除、支付)需要人类批准

建议3:关注成本变化

GPT-5.4的Computer Use功能按”操作次数”计费,而非按token计费。我测试了一个数据处理任务:

  • Claude Computer Use:约$0.50(基于token计费)
  • GPT-5.4 Computer Use:约$0.30(操作次数计费)

看起来GPT-5.4更便宜,但如果Agent”操作失误”导致重复操作,成本会飙升。建议在Agent设计中加入”操作优化”逻辑,减少无效操作。


未来的问题:谁会赢?

当OpenAI、Anthropic、Google都拥有Computer Use能力,谁会成为Agent平台的赢家?

我认为答案不在模型能力,而在三个维度:

  1. 生态开放性:谁能吸引更多开发者构建Agent应用?
  2. 企业信任度:谁能让大企业相信Agent的安全性和可控性?
  3. 成本优化:谁能提供更低的总拥有成本(模型+运营+维护)?

Claude在”安全性”上有优势(Anthropic的AI安全承诺),OpenAI在”生态”上更强(ChatGPT的用户基础),Google在”成本”上可能后来居上(自研TPU芯片)。

但有一点是确定的:Computer Use已经从”实验功能”变为”行业标配”。AI Agent的战场从”对话”转向”操作”,从”辅助”转向”自主”。

这是一个新时代的开始。


📚 参考资料

数据来源

  1. [GPT-5.4发布公告] - OpenAI官方博客, 2026-03-08
    • 链接: https://openai.com/blog/gpt-5-4-release
    • 关键数据: 1M token上下文窗口,Computer Use功能
  2. [Claude Opus 4.6 Computer Use文档] - Anthropic官方文档, 2025-10
    • 链接: https://docs.anthropic.com/computer-use
    • 关键数据: 500K token上下文窗口,Computer Use功能细节
  3. [OpenAI Agents SDK发布] - OpenAI开发者文档, 2026-03-08
    • 链接: https://platform.openai.com/docs/agents-sdk
    • 关键数据: SDK架构,生态开放性

延伸阅读

  • [Agent平台之争:OpenAI vs LangChain] - TechCrunch, 2026-03-08
  • [Computer Use的安全性挑战] - IEEE Spectrum, 2026-03
  • [企业AI应用的RPA替代趋势] - Gartner, 2026-02

说明

  • 本文基于2026-03-08的公开信息撰写
  • GPT-5.4成本数据基于官方定价估算
  • Agent应用案例基于行业观察,部分细节已脱敏
  • 如有数据更新,请参考OpenAI和Anthropic官方文档