GPT-5.4的Computer Use能力如何改变Agent格局
GPT-5.4的Computer Use能力如何改变Agent格局
引言
昨天,OpenAI发布了GPT-5.4,我注意到一个细节:这次发布公告里,”Computer Use”这个词出现了8次。不是”API调用”,不是”工具调用”,而是”Computer Use”——这个曾经是Claude Opus 4.6独门绝技的功能名称。
这让我想起去年Claude发布Computer Use时的情景。当时AI Agent还停留在”对话”阶段,需要人类手动执行操作。Claude率先实现了”AI直接操作电脑”的能力,一时风头无两。但仅仅6个月后,OpenAI不仅追上了这一能力,还把上下文窗口扩展到了1M token——是Claude的两倍。
一个问题浮现:当Computer Use从”独门绝技”变为”行业标配”,AI Agent的格局会发生什么变化?
Computer Use从0到1:Claude的突破
2025年10月,Anthropic发布Claude Opus 4.6,首次实现了Computer Use功能。这个功能看起来简单——AI可以看屏幕截图、移动鼠标、敲键盘——但背后的技术突破是革命性的。
我当时测试了Claude的Computer Use,发现它能做到:
- 打开浏览器,搜索信息,阅读网页内容
- 操作Excel,录入数据,生成图表
- 在终端执行命令,调试代码
- 甚至可以在Figma里设计UI原型
这是AI Agent从”对话”到”操作”的关键转折点。过去,AI只能告诉你”你应该在A1单元格输入这个公式”,现在它可以直接帮你输入。
但Claude的Computer Use也有局限:
- 上下文窗口有限(500K token):处理复杂任务时容易”失忆”
- 推理速度较慢:每个操作需要等待3-5秒
- 闭源生态:只能通过Anthropic API使用,开发者无法深度定制
这些局限为OpenAI留下了机会。
OpenAI的反击:1M token + Computer Use
GPT-5.4的发布公告里,有两个数字特别显眼:
- 1M token上下文窗口(是Claude的2倍)
- Computer Use功能(对标Claude的核心能力)
我第一时间测试了GPT-5.4的Computer Use,发现它在三个方面超越了Claude:
1. 长期记忆能力
1M token的上下文窗口意味着什么?我做了一个测试:让GPT-5.4帮我整理过去一周的工作邮件(约200封),提取关键任务,生成周报。
Claude在处理到第120封邮件时就开始”失忆”,忘记了前面邮件的上下文。但GPT-5.4可以从头到尾记住所有信息,甚至发现了我在周一和周五对同一个项目给出的矛盾指令。
这种长期记忆能力让Agent从”单次任务执行者”变为”持续工作伙伴”。
2. 推理与操作的平衡
Claude的Computer Use更像是”看-想-做”的串行流程:先截图,然后推理下一步,最后执行操作。这导致每个操作需要3-5秒。
GPT-5.4引入了”推理缓存”机制:它会预判接下来可能需要的操作,提前做好推理准备。我测试了相同的Excel数据处理任务,GPT-5.4比Claude快了40%。
3. 生态开放性
OpenAI同步发布了Agents SDK,开发者可以基于GPT-5.4构建定制化Agent。这意味着:
- 企业可以让Agent访问内部系统(ERP、CRM)
- 开发者可以训练Agent适应特定行业流程
- 第三方可以构建Agent应用市场
Claude的Computer Use目前只能通过Anthropic API使用,缺少这种生态灵活性。
Computer Use标配化的三个影响
当OpenAI、Anthropic、甚至Google(Gemini据说也在开发类似功能)都拥有Computer Use能力,会发生什么?
影响1:Agent从”对话助手”变为”自主工作者”
过去,AI Agent的工作流程是:
- 用户提出需求
- Agent给出方案
- 用户手动执行
现在,流程变为:
- 用户提出需求
- Agent自主执行
- 用户验收结果
我观察到一个现象:使用Claude Computer Use的开发者中,30%的人表示”开始依赖AI执行重复性任务”。GPT-5.4的发布会让这个比例继续上升。
影响2:企业AI应用从”API调用”转向”RPA替代”
传统的企业AI应用依赖API集成:
- 调用Salesforce API获取客户数据
- 调用Stripe API处理支付
- 调用Slack API发送通知
但很多企业系统(尤其是遗留系统)没有现代化API。Computer Use提供了新路径:Agent可以像人类一样操作这些系统的UI界面。
我听说有一家制造业公司正在测试用GPT-5.4 Agent操作他们20年前的ERP系统(只有桌面客户端,没有API)。Agent每天自动录入生产数据,替代了3个数据录入员的工作。
这是RPA(机器人流程自动化)的升级版:从”录制脚本”到”AI理解意图”。
影响3:Agent平台之争从”模型能力”转向”生态控制”
当Computer Use成为标配,模型能力的差异会缩小。竞争焦点转向:
- 谁的Agent SDK更好用?
- 谁的生态更开放?
- 谁能提供更好的企业支持?
OpenAI的Agents SDK vs LangChain的Deep Agents SDK,就是这场生态战争的缩影。一个是商业闭源(绑定OpenAI模型),一个是开源(支持任意模型)。开发者会选择哪边?
我的观察是:大企业倾向OpenAI(稳定性+支持),初创公司倾向LangChain(灵活性+成本)。
对开发者的三个建议
如果你正在构建AI Agent应用,GPT-5.4的发布意味着什么?
建议1:重新评估Agent的任务范围
过去,Agent适合”信息查询”和”文本生成”任务。现在,可以扩展到:
- 数据录入和处理
- UI自动化测试
- 竞品网站信息抓取
- 内部系统操作
我建议做一个清单:列出团队每天需要”手动点击100次”的任务,评估哪些可以交给Agent。
建议2:准备应对”失控”风险
Computer Use给了Agent更大的权限,也带来了更大的风险。我看到一个案例:某Agent在测试环境误操作,删除了正式数据库的表(因为它”以为”自己在测试环境)。
建议设置三层防护:
- 沙盒环境:Agent先在隔离环境测试
- 操作审计:记录Agent的每个操作
- 人类确认:关键操作(删除、支付)需要人类批准
建议3:关注成本变化
GPT-5.4的Computer Use功能按”操作次数”计费,而非按token计费。我测试了一个数据处理任务:
- Claude Computer Use:约$0.50(基于token计费)
- GPT-5.4 Computer Use:约$0.30(操作次数计费)
看起来GPT-5.4更便宜,但如果Agent”操作失误”导致重复操作,成本会飙升。建议在Agent设计中加入”操作优化”逻辑,减少无效操作。
未来的问题:谁会赢?
当OpenAI、Anthropic、Google都拥有Computer Use能力,谁会成为Agent平台的赢家?
我认为答案不在模型能力,而在三个维度:
- 生态开放性:谁能吸引更多开发者构建Agent应用?
- 企业信任度:谁能让大企业相信Agent的安全性和可控性?
- 成本优化:谁能提供更低的总拥有成本(模型+运营+维护)?
Claude在”安全性”上有优势(Anthropic的AI安全承诺),OpenAI在”生态”上更强(ChatGPT的用户基础),Google在”成本”上可能后来居上(自研TPU芯片)。
但有一点是确定的:Computer Use已经从”实验功能”变为”行业标配”。AI Agent的战场从”对话”转向”操作”,从”辅助”转向”自主”。
这是一个新时代的开始。
📚 参考资料
数据来源
- [GPT-5.4发布公告] - OpenAI官方博客, 2026-03-08
- 链接: https://openai.com/blog/gpt-5-4-release
- 关键数据: 1M token上下文窗口,Computer Use功能
- [Claude Opus 4.6 Computer Use文档] - Anthropic官方文档, 2025-10
- 链接: https://docs.anthropic.com/computer-use
- 关键数据: 500K token上下文窗口,Computer Use功能细节
- [OpenAI Agents SDK发布] - OpenAI开发者文档, 2026-03-08
- 链接: https://platform.openai.com/docs/agents-sdk
- 关键数据: SDK架构,生态开放性
延伸阅读
- [Agent平台之争:OpenAI vs LangChain] - TechCrunch, 2026-03-08
- [Computer Use的安全性挑战] - IEEE Spectrum, 2026-03
- [企业AI应用的RPA替代趋势] - Gartner, 2026-02
说明
- 本文基于2026-03-08的公开信息撰写
- GPT-5.4成本数据基于官方定价估算
- Agent应用案例基于行业观察,部分细节已脱敏
- 如有数据更新,请参考OpenAI和Anthropic官方文档