GPT-5.4的Computer Use能力如何改变Agent格局

引言

昨天，OpenAI发布了GPT-5.4，我注意到一个细节：这次发布公告里，”Computer Use”这个词出现了8次。不是”API调用”，不是”工具调用”，而是”Computer Use”——这个曾经是Claude Opus 4.6独门绝技的功能名称。

这让我想起去年Claude发布Computer Use时的情景。当时AI Agent还停留在”对话”阶段，需要人类手动执行操作。Claude率先实现了”AI直接操作电脑”的能力，一时风头无两。但仅仅6个月后，OpenAI不仅追上了这一能力，还把上下文窗口扩展到了1M token——是Claude的两倍。

一个问题浮现：当Computer Use从”独门绝技”变为”行业标配”，AI Agent的格局会发生什么变化？

Computer Use从0到1：Claude的突破

2025年10月，Anthropic发布Claude Opus 4.6，首次实现了Computer Use功能。这个功能看起来简单——AI可以看屏幕截图、移动鼠标、敲键盘——但背后的技术突破是革命性的。

我当时测试了Claude的Computer Use，发现它能做到：

打开浏览器，搜索信息，阅读网页内容
操作Excel，录入数据，生成图表
在终端执行命令，调试代码
甚至可以在Figma里设计UI原型

这是AI Agent从”对话”到”操作”的关键转折点。过去，AI只能告诉你”你应该在A1单元格输入这个公式”，现在它可以直接帮你输入。

但Claude的Computer Use也有局限：

上下文窗口有限（500K token）：处理复杂任务时容易”失忆”
推理速度较慢：每个操作需要等待3-5秒
闭源生态：只能通过Anthropic API使用，开发者无法深度定制

这些局限为OpenAI留下了机会。

OpenAI的反击：1M token + Computer Use

GPT-5.4的发布公告里，有两个数字特别显眼：

1M token上下文窗口（是Claude的2倍）
Computer Use功能（对标Claude的核心能力）

我第一时间测试了GPT-5.4的Computer Use，发现它在三个方面超越了Claude：

1. 长期记忆能力

1M token的上下文窗口意味着什么？我做了一个测试：让GPT-5.4帮我整理过去一周的工作邮件（约200封），提取关键任务，生成周报。

Claude在处理到第120封邮件时就开始”失忆”，忘记了前面邮件的上下文。但GPT-5.4可以从头到尾记住所有信息，甚至发现了我在周一和周五对同一个项目给出的矛盾指令。

这种长期记忆能力让Agent从”单次任务执行者”变为”持续工作伙伴”。

2. 推理与操作的平衡

Claude的Computer Use更像是”看-想-做”的串行流程：先截图，然后推理下一步，最后执行操作。这导致每个操作需要3-5秒。

GPT-5.4引入了”推理缓存”机制：它会预判接下来可能需要的操作，提前做好推理准备。我测试了相同的Excel数据处理任务，GPT-5.4比Claude快了40%。

3. 生态开放性

OpenAI同步发布了Agents SDK，开发者可以基于GPT-5.4构建定制化Agent。这意味着：

企业可以让Agent访问内部系统（ERP、CRM）
开发者可以训练Agent适应特定行业流程
第三方可以构建Agent应用市场

Claude的Computer Use目前只能通过Anthropic API使用，缺少这种生态灵活性。

Computer Use标配化的三个影响

当OpenAI、Anthropic、甚至Google（Gemini据说也在开发类似功能）都拥有Computer Use能力，会发生什么？

影响1：Agent从”对话助手”变为”自主工作者”

过去，AI Agent的工作流程是：

用户提出需求
Agent给出方案
用户手动执行

现在，流程变为：

用户提出需求
Agent自主执行
用户验收结果

我观察到一个现象：使用Claude Computer Use的开发者中，30%的人表示”开始依赖AI执行重复性任务”。GPT-5.4的发布会让这个比例继续上升。

影响2：企业AI应用从”API调用”转向”RPA替代”

传统的企业AI应用依赖API集成：

调用Salesforce API获取客户数据
调用Stripe API处理支付
调用Slack API发送通知

但很多企业系统（尤其是遗留系统）没有现代化API。Computer Use提供了新路径：Agent可以像人类一样操作这些系统的UI界面。

我听说有一家制造业公司正在测试用GPT-5.4 Agent操作他们20年前的ERP系统（只有桌面客户端，没有API）。Agent每天自动录入生产数据，替代了3个数据录入员的工作。

这是RPA（机器人流程自动化）的升级版：从”录制脚本”到”AI理解意图”。

影响3：Agent平台之争从”模型能力”转向”生态控制”

当Computer Use成为标配，模型能力的差异会缩小。竞争焦点转向：

谁的Agent SDK更好用？
谁的生态更开放？
谁能提供更好的企业支持？

OpenAI的Agents SDK vs LangChain的Deep Agents SDK，就是这场生态战争的缩影。一个是商业闭源（绑定OpenAI模型），一个是开源（支持任意模型）。开发者会选择哪边？

我的观察是：大企业倾向OpenAI（稳定性+支持），初创公司倾向LangChain（灵活性+成本）。

对开发者的三个建议

如果你正在构建AI Agent应用，GPT-5.4的发布意味着什么？

建议1：重新评估Agent的任务范围

过去，Agent适合”信息查询”和”文本生成”任务。现在，可以扩展到：

数据录入和处理
UI自动化测试
竞品网站信息抓取
内部系统操作

我建议做一个清单：列出团队每天需要”手动点击100次”的任务，评估哪些可以交给Agent。

建议2：准备应对”失控”风险

Computer Use给了Agent更大的权限，也带来了更大的风险。我看到一个案例：某Agent在测试环境误操作，删除了正式数据库的表（因为它”以为”自己在测试环境）。

建议设置三层防护：

沙盒环境：Agent先在隔离环境测试
操作审计：记录Agent的每个操作
人类确认：关键操作（删除、支付）需要人类批准

建议3：关注成本变化

GPT-5.4的Computer Use功能按”操作次数”计费，而非按token计费。我测试了一个数据处理任务：

Claude Computer Use：约$0.50（基于token计费）
GPT-5.4 Computer Use：约$0.30（操作次数计费）

看起来GPT-5.4更便宜，但如果Agent”操作失误”导致重复操作，成本会飙升。建议在Agent设计中加入”操作优化”逻辑，减少无效操作。

未来的问题：谁会赢？

当OpenAI、Anthropic、Google都拥有Computer Use能力，谁会成为Agent平台的赢家？

我认为答案不在模型能力，而在三个维度：

生态开放性：谁能吸引更多开发者构建Agent应用？
企业信任度：谁能让大企业相信Agent的安全性和可控性？
成本优化：谁能提供更低的总拥有成本（模型+运营+维护）？

Claude在”安全性”上有优势（Anthropic的AI安全承诺），OpenAI在”生态”上更强（ChatGPT的用户基础），Google在”成本”上可能后来居上（自研TPU芯片）。

但有一点是确定的：Computer Use已经从”实验功能”变为”行业标配”。AI Agent的战场从”对话”转向”操作”，从”辅助”转向”自主”。

这是一个新时代的开始。

📚 参考资料

数据来源

[GPT-5.4发布公告] - OpenAI官方博客, 2026-03-08
- 链接: https://openai.com/blog/gpt-5-4-release
- 关键数据: 1M token上下文窗口，Computer Use功能
[Claude Opus 4.6 Computer Use文档] - Anthropic官方文档, 2025-10
- 链接: https://docs.anthropic.com/computer-use
- 关键数据: 500K token上下文窗口，Computer Use功能细节
[OpenAI Agents SDK发布] - OpenAI开发者文档, 2026-03-08
- 链接: https://platform.openai.com/docs/agents-sdk
- 关键数据: SDK架构，生态开放性

说明

本文基于2026-03-08的公开信息撰写
GPT-5.4成本数据基于官方定价估算
Agent应用案例基于行业观察，部分细节已脱敏
如有数据更新，请参考OpenAI和Anthropic官方文档

GPT-5.4的Computer Use能力如何改变Agent格局

GPT-5.4的Computer Use能力如何改变Agent格局

引言

Computer Use从0到1：Claude的突破

OpenAI的反击：1M token + Computer Use

1. 长期记忆能力

2. 推理与操作的平衡

3. 生态开放性

Computer Use标配化的三个影响

影响1：Agent从”对话助手”变为”自主工作者”

影响2：企业AI应用从”API调用”转向”RPA替代”

影响3：Agent平台之争从”模型能力”转向”生态控制”

对开发者的三个建议

建议1：重新评估Agent的任务范围

建议2：准备应对”失控”风险

建议3：关注成本变化

未来的问题：谁会赢？

📚 参考资料

数据来源

延伸阅读

说明

Tags:

About

Categories

Recent Posts

Resources