Scale AI 排行榜揭示 AI 能力的大分裂:推理霸主 GPT-5.4-pro vs 工作自动化之王 Claude Opus 4.6
所属主题:ai-dlc — AI 开发生命周期
2026 年 3 月 26 日,Scale AI 更新了两份排行榜——Humanity’s Last Exam(HLE)和 Remote Labor Index(RLI)。在大多数科技媒体的报道中,这只是”又一次基准测试更新”。但如果你把两份榜单放在一起看,你会发现一个远比数字本身更重要的趋势:AI 领域正在发生一次深层的能力分裂。
HLE 排行榜——衡量 AI 在专家级学术问题上的推理能力——的最新排名是这样的(来源:Scale AI Leaderboard,2026-03-26):
- GPT-5.4-pro:45.32%
- Gemini-3-pro-preview:37.72%
- GPT-5.4(标准版):36.47%
- Claude Opus 4.6 thinking:36.24%
OpenAI 的 GPT-5.4-pro 以超过 7 个百分点的优势领先第二名——在这个级别的基准测试中,这是一个显著的差距。在纯粹的推理能力上,OpenAI 处于无可争议的领先位置。
但翻到 RLI 排行榜——衡量 AI 在真实工作场景中的自动化能力——故事完全变了。Claude Opus 4.6 以 CoWork 模式运行时,以 4.17% 的自动化率领跑所有参与测试的 AI 系统。这意味着在模拟真实的知识工作任务(写邮件、处理文档、管理日程、分析数据)中,Anthropic 的 Claude 表现优于 OpenAI 的 GPT-5.4 和 Google 的 Gemini 3。
同一家评测机构的两份排行榜讲述了两个截然不同的故事。推理能力的王者和工作自动化的王者不是同一个模型——这是 AI 发展史上第一次出现如此清晰的能力分裂。
推理能力 vs 工作能力:为什么它们不是同一回事?
直觉上,一个”更聪明”的 AI 应该也能”更好地工作”——毕竟工作需要推理,推理更强应该工作也更好。但 HLE 和 RLI 的数据告诉我们,这种直觉是错误的。
原因在于”推理”和”工作”对 AI 能力的要求有根本性的结构差异。
HLE 测试的是”深度推理”——给定一个明确定义的问题(通常是学术性的),AI 需要调用知识和逻辑链来推导出答案。问题的边界是清晰的,评判标准是唯一的(对或错),不需要与外部环境交互。这类似于一个数学家在安静的办公室里解题——需要的是深度思考能力。
RLI 测试的是”广度执行”——在一个模拟的真实工作环境中,AI 需要同时处理多种类型的任务(文本编辑、数据分析、沟通协调、流程管理),需要在不完整的信息和模糊的指令下做出判断,需要与多个工具和系统交互,需要在长时间范围内保持上下文一致性。这类似于一个办公室行政助理——需要的不是深度思考,而是多任务处理、工具使用和上下文管理的综合能力。
GPT-5.4-pro 之所以在 HLE 上领先,是因为 OpenAI 在训练过程中重度优化了数学推理、科学分析和逻辑推导等”深度思考”任务。Claude Opus 4.6 之所以在 RLI 上领先,是因为 Anthropic 在产品设计中优先考虑了工具调用的可靠性、长上下文的连贯性和多任务处理的稳定性——这些是”工作能力”的核心组件。
这种差异不是偶然的——它反映了两家公司截然不同的产品策略。OpenAI 追求的是”最聪明的 AI”——在基准测试排行榜上取得最高分,以此来维持品牌和技术领先形象。Anthropic 追求的是”最有用的 AI”——在真实工作场景中提供最可靠的自动化能力,以此来赢得企业客户。
来自企业市场的数据支持了 Anthropic 策略的有效性。根据 Ramp(企业费用管理平台)的数据,在 2025 年至 2026 年间,企业选择 Anthropic Claude 的概率是选择 OpenAI 的 3 倍(来源:综合报道,2026-03-26)。这说明企业在做实际的工具选择时,更看重”工作能力”而非”推理能力”。
4.17% 自动化率:这个数字意味着什么?
让我们用一个更直观的方式来理解 RLI 4.17% 这个数字。
假设一个典型的知识工作者每周工作 40 小时,完成大约 100 个离散的工作任务(从回复邮件到准备报告到参加会议到审阅文档)。4.17% 的自动化率意味着 AI 可以完全独立地完成其中约 4 个任务——不需要人工干预,输出质量达到人类可接受的标准。
这听起来不多。但考虑到两个背景因素:
第一,这是”完全自动化”——AI 从接收任务指令到交付最终结果的全流程独立完成。如果算上”部分自动化”(AI 完成任务的大部分工作,人只做最后的审核和微调),实际的”AI 辅助率”可能达到 15% 至 20%。
第二,这个数字在过去 12 个月内从接近 0 增长到 4.17%。如果增长趋势持续(即使不是线性的),到 2027 年底可能达到 10% 至 15%。考虑到全球知识工作者的薪酬总额以万亿美元计,即使 10% 的自动化率也意味着万亿级的经济影响。
但 4.17% 也是一个警钟。它意味着 AI 当前无法独立完成 95% 以上的知识工作任务。那些声称”AI 将在 2 至 3 年内替代大部分白领工作”的预测与 RLI 数据之间存在巨大的落差。AI 的工作自动化能力确实在快速进步,但从 4% 到 40% 的路径不太可能是线性的——它更可能遵循 S 曲线,在某些任务类型上快速突破,在其他类型上长期停滞。
同一周内,Scale AI 还发布了关于浏览器 Agent 安全的研究(来源:Scale Labs,2026-03-27),以及 DryRun Security 发布了关于 AI coding agent 安全漏洞的研究(来源:DryRun Security,2026-03-27)。这些研究共同指向一个正在浮现的问题——随着 AI 的工作自动化率从 4% 向 10% 攀升,安全性和可靠性正在成为越来越紧迫的挑战。当 AI Agent 开始自主操作浏览器、编写代码、处理敏感数据时,每一次”自动化”都伴随着一次潜在的安全风险。
Andrej Karpathy 在同一周评论了 LiteLLM 开源项目被恶意软件入侵的事件——他的判断是恶意代码很可能是”vibe coded”的(AI 辅助生成但未仔细审查),这是一个讽刺的例证:AI 在加速软件开发的同时也在加速恶意代码的传播(来源:TechCrunch,2026-03-26)。Enclave AI 以 3300 万美元估值获得 600 万美元种子轮融资(8VC、Marc Benioff 和 Patrick Collison 领投)专注于 AI 代码安全(来源:3judyrealtor.com,2026-03-27),说明资本市场已经嗅到了这个安全赛道的巨大机会。
对立视角:基准测试可能根本不重要
有一种合理的质疑是——基准测试(无论是 HLE 还是 RLI)可能根本无法准确衡量 AI 在真实世界中的表现。
质疑一:基准测试可以被”应试”优化。 就像 SAT 高分不等于大学学习能力强一样,HLE 高分不等于推理能力真的比竞争对手强很多。模型开发者可以通过在与基准测试相似的数据上进行特定训练来”刷分”。GPT-5.4-pro 的 45.32% 是否反映了真实的推理能力优势,还是反映了更好的基准测试优化策略?
质疑二:RLI 的测试环境与真实工作环境差距巨大。 RLI 在模拟环境中测试 AI 的工作能力,但真实的工作环境涉及政治、人际关系、模糊的优先级、不断变化的要求和大量的”未说出口的上下文”。4.17% 的自动化率在真实环境中可能更低。
质疑三:模型之间的差距可能在下一次更新中翻转。 GPT-5.4-pro 今天领先 HLE,Claude Opus 4.6 今天领先 RLI,但 AI 模型更新的周期通常只有 3 至 6 个月。今天的排名可能在半年后完全不同。
这些质疑都有道理。但我认为它们不影响核心洞察——”推理能力”和”工作能力”已经成为两个可独立发展、不完全相关的 AI 能力维度。即使具体的排名会变化,这种能力维度的分化趋势是结构性的,不会因为一两次模型更新而消失。
大多数人没看到什么:AI 选型将从”选最好的模型”变成”选最适合的模型”
绝大多数关于 AI 模型的讨论仍然在寻找一个”最好的模型”——一个在所有维度上都领先的通用冠军。HLE 和 RLI 的分裂告诉我们,这个”通用冠军”可能永远不会出现。
更可能的未来是”多模型矩阵”——企业根据不同的任务类型选择不同的 AI 模型。需要深度推理的任务(战略分析、科学研究、复杂决策)使用 GPT-5.4-pro 或同级别的推理优化模型。需要可靠工作执行的任务(客服自动化、文档处理、工作流管理)使用 Claude Opus 4.6 或同级别的工作优化模型。需要快速响应和低延迟的任务使用 Gemini 3.1 Flash Live 或同级别的轻量模型——Google 刚刚发布的这款实时多模态语音模型在 ComplexFuncBench Audio 上得分 90.8%,专为 Agent 的低延迟交互场景设计(来源:MarkTechPost,2026-03-27)。
这种”多模型矩阵”的趋势正在催生一个新的中间层市场——模型路由和编排。LyzrGPT 刚刚发布了企业级私有多模型 AI 接口(来源:app.com,2026-03-27),让企业可以在保持数据控制的同时使用多个 AI 模型。AWS Bedrock 通过跨区域推理扩展到新西兰区域,支持 Anthropic Claude 系列和 Amazon Nova 2 Lite(来源:AWS ML Blog,2026-03-27)。这些都是”多模型矩阵”基础设施的早期构建。
对 AI 产业来说,能力分裂意味着市场不太可能出现”赢家通吃”的局面。OpenAI 可以在推理能力上保持领先但不一定能赢得所有企业客户。Anthropic 可以在工作自动化上保持领先但不一定能赢得所有研究用户。Google 可以在多模态和低延迟上保持领先但不一定能赢得所有高价值用例。多样性而非垄断可能是 AI 产业的长期格局。
So What:基于能力分裂做决策
对企业技术架构师:停止寻找”最好的 AI 模型”,开始构建”模型路由”能力。根据任务类型自动将请求分配到最适合的模型——推理密集型任务走 GPT-5.4-pro,工作执行型任务走 Claude Opus 4.6,实时交互走 Gemini Flash Live。这需要一个中间编排层(AWS Bedrock、LyzrGPT 或自建方案),但长期回报是更高的效率和更低的成本。
对 AI 模型开发者:能力分裂意味着”通才”策略(在所有维度上同时提升)可能不如”专才”策略(在特定维度上做到极致)有效。选择你的核心维度——推理、执行、多模态还是安全——然后在那个维度上建立不可替代的优势。试图在所有基准测试上同时领先是一种资源浪费。
对 AI 安全研究者:随着 AI 工作自动化率从 4% 向 10% 攀升,安全研究的重点需要从”模型幻觉”转向”Agent 行为安全”——AI 在自主操作工具、浏览器和代码库时的安全边界在哪里?Scale AI 和 DryRun Security 的研究是正确的方向,但目前的研究力度远不够。当 AI Agent 的工作自动化率达到 15% 至 20% 时,安全问题将从”学术研究”变成”生产事故”。Karpathy 对”vibe coded”恶意软件的警告只是冰山一角——真正的挑战是当 AI Agent 在企业核心系统中有执行权限时,一个被入侵或行为异常的 Agent 可能造成的损失将远超传统的网络安全事件。
这场能力大分裂的最终含义是:AI 产业正在从”谁能做出最好的通用模型”的单一赛道,分化为多个专业化的能力赛道。就像汽车行业不存在”最好的车”而是有家用车、跑车、越野车、卡车各有所长一样,AI 行业的成熟形态将是多个模型在各自擅长的维度上竞争和共存。认识到这一点,对于企业的 AI 采购策略、投资者的资产配置、以及 AI 研发人员的职业规划,都有直接的实操价值。在一个多模型共存的世界里,最有价值的能力不是”精通某一个模型”,而是”理解不同模型的能力边界并知道何时使用哪一个”。
参考资料
- Scale AI Leaderboard — Humanity’s Last Exam (Text Only) — Scale Labs, 2026-03-26
- Delve: Did the Security Compliance on LiteLLM — TechCrunch, 2026-03-26
- Google Releases Gemini 3.1 Flash Live — MarkTechPost, 2026-03-27
- Enclave AI 获 $600 万种子轮 — 3judyrealtor.com, 2026-03-27
- AWS Bedrock 扩展至新西兰区域 — AWS Machine Learning Blog, 2026-03-27
- LyzrGPT 企业级多模型 AI 接口 — app.com, 2026-03-27