Scale AI 排行榜揭示 AI 能力的大分裂：推理霸主 GPT-5.4-pro vs 工作自动化之王 Claude Opus 4.6

所属主题：ai-dlc — AI 开发生命周期

2026 年 3 月 26 日，Scale AI 更新了两份排行榜——Humanity’s Last Exam（HLE）和 Remote Labor Index（RLI）。在大多数科技媒体的报道中，这只是”又一次基准测试更新”。但如果你把两份榜单放在一起看，你会发现一个远比数字本身更重要的趋势：AI 领域正在发生一次深层的能力分裂。

HLE 排行榜——衡量 AI 在专家级学术问题上的推理能力——的最新排名是这样的（来源：Scale AI Leaderboard，2026-03-26）：

GPT-5.4-pro：45.32%
Gemini-3-pro-preview：37.72%
GPT-5.4（标准版）：36.47%
Claude Opus 4.6 thinking：36.24%

OpenAI 的 GPT-5.4-pro 以超过 7 个百分点的优势领先第二名——在这个级别的基准测试中，这是一个显著的差距。在纯粹的推理能力上，OpenAI 处于无可争议的领先位置。

但翻到 RLI 排行榜——衡量 AI 在真实工作场景中的自动化能力——故事完全变了。Claude Opus 4.6 以 CoWork 模式运行时，以 4.17% 的自动化率领跑所有参与测试的 AI 系统。这意味着在模拟真实的知识工作任务（写邮件、处理文档、管理日程、分析数据）中，Anthropic 的 Claude 表现优于 OpenAI 的 GPT-5.4 和 Google 的 Gemini 3。

同一家评测机构的两份排行榜讲述了两个截然不同的故事。推理能力的王者和工作自动化的王者不是同一个模型——这是 AI 发展史上第一次出现如此清晰的能力分裂。

推理能力 vs 工作能力：为什么它们不是同一回事？

直觉上，一个”更聪明”的 AI 应该也能”更好地工作”——毕竟工作需要推理，推理更强应该工作也更好。但 HLE 和 RLI 的数据告诉我们，这种直觉是错误的。

原因在于”推理”和”工作”对 AI 能力的要求有根本性的结构差异。

HLE 测试的是”深度推理”——给定一个明确定义的问题（通常是学术性的），AI 需要调用知识和逻辑链来推导出答案。问题的边界是清晰的，评判标准是唯一的（对或错），不需要与外部环境交互。这类似于一个数学家在安静的办公室里解题——需要的是深度思考能力。

RLI 测试的是”广度执行”——在一个模拟的真实工作环境中，AI 需要同时处理多种类型的任务（文本编辑、数据分析、沟通协调、流程管理），需要在不完整的信息和模糊的指令下做出判断，需要与多个工具和系统交互，需要在长时间范围内保持上下文一致性。这类似于一个办公室行政助理——需要的不是深度思考，而是多任务处理、工具使用和上下文管理的综合能力。

GPT-5.4-pro 之所以在 HLE 上领先，是因为 OpenAI 在训练过程中重度优化了数学推理、科学分析和逻辑推导等”深度思考”任务。Claude Opus 4.6 之所以在 RLI 上领先，是因为 Anthropic 在产品设计中优先考虑了工具调用的可靠性、长上下文的连贯性和多任务处理的稳定性——这些是”工作能力”的核心组件。

这种差异不是偶然的——它反映了两家公司截然不同的产品策略。OpenAI 追求的是”最聪明的 AI”——在基准测试排行榜上取得最高分，以此来维持品牌和技术领先形象。Anthropic 追求的是”最有用的 AI”——在真实工作场景中提供最可靠的自动化能力，以此来赢得企业客户。

来自企业市场的数据支持了 Anthropic 策略的有效性。根据 Ramp（企业费用管理平台）的数据，在 2025 年至 2026 年间，企业选择 Anthropic Claude 的概率是选择 OpenAI 的 3 倍（来源：综合报道，2026-03-26）。这说明企业在做实际的工具选择时，更看重”工作能力”而非”推理能力”。

4.17% 自动化率：这个数字意味着什么？

让我们用一个更直观的方式来理解 RLI 4.17% 这个数字。

假设一个典型的知识工作者每周工作 40 小时，完成大约 100 个离散的工作任务（从回复邮件到准备报告到参加会议到审阅文档）。4.17% 的自动化率意味着 AI 可以完全独立地完成其中约 4 个任务——不需要人工干预，输出质量达到人类可接受的标准。

这听起来不多。但考虑到两个背景因素：

第一，这是”完全自动化”——AI 从接收任务指令到交付最终结果的全流程独立完成。如果算上”部分自动化”（AI 完成任务的大部分工作，人只做最后的审核和微调），实际的”AI 辅助率”可能达到 15% 至 20%。

第二，这个数字在过去 12 个月内从接近 0 增长到 4.17%。如果增长趋势持续（即使不是线性的），到 2027 年底可能达到 10% 至 15%。考虑到全球知识工作者的薪酬总额以万亿美元计，即使 10% 的自动化率也意味着万亿级的经济影响。

但 4.17% 也是一个警钟。它意味着 AI 当前无法独立完成 95% 以上的知识工作任务。那些声称”AI 将在 2 至 3 年内替代大部分白领工作”的预测与 RLI 数据之间存在巨大的落差。AI 的工作自动化能力确实在快速进步，但从 4% 到 40% 的路径不太可能是线性的——它更可能遵循 S 曲线，在某些任务类型上快速突破，在其他类型上长期停滞。

同一周内，Scale AI 还发布了关于浏览器 Agent 安全的研究（来源：Scale Labs，2026-03-27），以及 DryRun Security 发布了关于 AI coding agent 安全漏洞的研究（来源：DryRun Security，2026-03-27）。这些研究共同指向一个正在浮现的问题——随着 AI 的工作自动化率从 4% 向 10% 攀升，安全性和可靠性正在成为越来越紧迫的挑战。当 AI Agent 开始自主操作浏览器、编写代码、处理敏感数据时，每一次”自动化”都伴随着一次潜在的安全风险。

Andrej Karpathy 在同一周评论了 LiteLLM 开源项目被恶意软件入侵的事件——他的判断是恶意代码很可能是”vibe coded”的（AI 辅助生成但未仔细审查），这是一个讽刺的例证：AI 在加速软件开发的同时也在加速恶意代码的传播（来源：TechCrunch，2026-03-26）。Enclave AI 以 3300 万美元估值获得 600 万美元种子轮融资（8VC、Marc Benioff 和 Patrick Collison 领投）专注于 AI 代码安全（来源：3judyrealtor.com，2026-03-27），说明资本市场已经嗅到了这个安全赛道的巨大机会。

对立视角：基准测试可能根本不重要

有一种合理的质疑是——基准测试（无论是 HLE 还是 RLI）可能根本无法准确衡量 AI 在真实世界中的表现。

质疑一：基准测试可以被”应试”优化。 就像 SAT 高分不等于大学学习能力强一样，HLE 高分不等于推理能力真的比竞争对手强很多。模型开发者可以通过在与基准测试相似的数据上进行特定训练来”刷分”。GPT-5.4-pro 的 45.32% 是否反映了真实的推理能力优势，还是反映了更好的基准测试优化策略？

质疑二：RLI 的测试环境与真实工作环境差距巨大。 RLI 在模拟环境中测试 AI 的工作能力，但真实的工作环境涉及政治、人际关系、模糊的优先级、不断变化的要求和大量的”未说出口的上下文”。4.17% 的自动化率在真实环境中可能更低。

质疑三：模型之间的差距可能在下一次更新中翻转。 GPT-5.4-pro 今天领先 HLE，Claude Opus 4.6 今天领先 RLI，但 AI 模型更新的周期通常只有 3 至 6 个月。今天的排名可能在半年后完全不同。

这些质疑都有道理。但我认为它们不影响核心洞察——”推理能力”和”工作能力”已经成为两个可独立发展、不完全相关的 AI 能力维度。即使具体的排名会变化，这种能力维度的分化趋势是结构性的，不会因为一两次模型更新而消失。

大多数人没看到什么：AI 选型将从”选最好的模型”变成”选最适合的模型”

绝大多数关于 AI 模型的讨论仍然在寻找一个”最好的模型”——一个在所有维度上都领先的通用冠军。HLE 和 RLI 的分裂告诉我们，这个”通用冠军”可能永远不会出现。

更可能的未来是”多模型矩阵”——企业根据不同的任务类型选择不同的 AI 模型。需要深度推理的任务（战略分析、科学研究、复杂决策）使用 GPT-5.4-pro 或同级别的推理优化模型。需要可靠工作执行的任务（客服自动化、文档处理、工作流管理）使用 Claude Opus 4.6 或同级别的工作优化模型。需要快速响应和低延迟的任务使用 Gemini 3.1 Flash Live 或同级别的轻量模型——Google 刚刚发布的这款实时多模态语音模型在 ComplexFuncBench Audio 上得分 90.8%，专为 Agent 的低延迟交互场景设计（来源：MarkTechPost，2026-03-27）。

这种”多模型矩阵”的趋势正在催生一个新的中间层市场——模型路由和编排。LyzrGPT 刚刚发布了企业级私有多模型 AI 接口（来源：app.com，2026-03-27），让企业可以在保持数据控制的同时使用多个 AI 模型。AWS Bedrock 通过跨区域推理扩展到新西兰区域，支持 Anthropic Claude 系列和 Amazon Nova 2 Lite（来源：AWS ML Blog，2026-03-27）。这些都是”多模型矩阵”基础设施的早期构建。

对 AI 产业来说，能力分裂意味着市场不太可能出现”赢家通吃”的局面。OpenAI 可以在推理能力上保持领先但不一定能赢得所有企业客户。Anthropic 可以在工作自动化上保持领先但不一定能赢得所有研究用户。Google 可以在多模态和低延迟上保持领先但不一定能赢得所有高价值用例。多样性而非垄断可能是 AI 产业的长期格局。

So What：基于能力分裂做决策

对企业技术架构师：停止寻找”最好的 AI 模型”，开始构建”模型路由”能力。根据任务类型自动将请求分配到最适合的模型——推理密集型任务走 GPT-5.4-pro，工作执行型任务走 Claude Opus 4.6，实时交互走 Gemini Flash Live。这需要一个中间编排层（AWS Bedrock、LyzrGPT 或自建方案），但长期回报是更高的效率和更低的成本。

对 AI 模型开发者：能力分裂意味着”通才”策略（在所有维度上同时提升）可能不如”专才”策略（在特定维度上做到极致）有效。选择你的核心维度——推理、执行、多模态还是安全——然后在那个维度上建立不可替代的优势。试图在所有基准测试上同时领先是一种资源浪费。

对 AI 安全研究者：随着 AI 工作自动化率从 4% 向 10% 攀升，安全研究的重点需要从”模型幻觉”转向”Agent 行为安全”——AI 在自主操作工具、浏览器和代码库时的安全边界在哪里？Scale AI 和 DryRun Security 的研究是正确的方向，但目前的研究力度远不够。当 AI Agent 的工作自动化率达到 15% 至 20% 时，安全问题将从”学术研究”变成”生产事故”。Karpathy 对”vibe coded”恶意软件的警告只是冰山一角——真正的挑战是当 AI Agent 在企业核心系统中有执行权限时，一个被入侵或行为异常的 Agent 可能造成的损失将远超传统的网络安全事件。

这场能力大分裂的最终含义是：AI 产业正在从”谁能做出最好的通用模型”的单一赛道，分化为多个专业化的能力赛道。就像汽车行业不存在”最好的车”而是有家用车、跑车、越野车、卡车各有所长一样，AI 行业的成熟形态将是多个模型在各自擅长的维度上竞争和共存。认识到这一点，对于企业的 AI 采购策略、投资者的资产配置、以及 AI 研发人员的职业规划，都有直接的实操价值。在一个多模型共存的世界里，最有价值的能力不是”精通某一个模型”，而是”理解不同模型的能力边界并知道何时使用哪一个”。

参考资料

Scale AI Leaderboard — Humanity’s Last Exam (Text Only) — Scale Labs, 2026-03-26
Delve: Did the Security Compliance on LiteLLM — TechCrunch, 2026-03-26
Google Releases Gemini 3.1 Flash Live — MarkTechPost, 2026-03-27
Enclave AI 获 $600 万种子轮 — 3judyrealtor.com, 2026-03-27
AWS Bedrock 扩展至新西兰区域 — AWS Machine Learning Blog, 2026-03-27
LyzrGPT 企业级多模型 AI 接口 — app.com, 2026-03-27

Scale AI 排行榜揭示 AI 能力的大分裂：推理霸主 GPT-5.4-pro vs 工作自动化之王 Claude Opus 4.6

推理能力 vs 工作能力：为什么它们不是同一回事？

4.17% 自动化率：这个数字意味着什么？

对立视角：基准测试可能根本不重要

大多数人没看到什么：AI 选型将从”选最好的模型”变成”选最适合的模型”

So What：基于能力分裂做决策

参考资料

About

Categories

Recent Posts

Resources