深吸一口气:那张让全球恐慌的AI图表,其实只测了50%成功率——Gary Marcus用三个被忽视的事实,解构了METR的Claude Mythos评估
2026年5月8日,一张图表在AI圈引发了近乎集体恐慌。
这是由AI评估机构METR发布的”时间范围图”(time horizon graph)的最新版本。图表显示:Claude Mythos Preview在早期评估中,能够完成人类工程师需要16小时才能完成的软件开发任务——50%成功率。
随后Twitter上充斥着末日预言:
- “我们已经到了不可逆的临界点”
- “AI软件工程师的时间线比预测的快十年”
- “图表已经被打破,METR没有更难的任务可以测了”
连通常相对冷静的预测者Peter Wildeford也担忧,Claude Mythos已经”打破了图表”——意思是模型能力已经超出了METR当前基准的测量上限。
两天后,2026年5月10日,Gary Marcus在Substack发表了一篇标题直接的文章:《对AI进步的误解性恐慌》(Misplaced Panic Over AI Progress)。
他的核心主张:那张引发恐慌的图表,被严重误读了。
被遗漏的”两个星号”
Marcus在文章中开门见山:他并不质疑METR的数据本身,而是指出人们在传播和解读这张图表时,系统性地忽略了两个关键约束条件——他称之为”两个重要星号”。
星号一:50%不是可靠性
METR图表测量的,是AI完成特定时长软件任务的50%成功率阈值。
换句话说:在16小时任务上,Claude Mythos有50%的概率成功,50%的概率失败。
Marcus写道:
“如果你仔细阅读METR关于其图表的推文,测量的是实现50%成功率。不是100%,也不是99%,甚至不是90%。(还有一个80%版本,看起来没那么令人不安;它有相同的一般形状,但整体表现低得多。)”
这个细节,在大量转发和讨论中几乎完全消失了。
一个50%成功率的AI,意味着:如果让它完成一个真实的、需要16小时人工时的软件任务,有一半概率失败。对于AI替代人类工程师的讨论,50%成功率是一个什么水平?在大多数工程场景中,这意味着你需要2个AI尝试才能完成1个任务——而且你需要某种机制来判断哪次尝试是成功的。
Marcus进一步指出:即使在METR当前的任务集上,如果把成功率门槛从50%提高到80%或95%,”图表被打破”的说法就站不住脚了——那个刻度下,仍然有大量任务Claude Mythos无法可靠完成。
“图表被打破”的恐慌,本质上是用一个低门槛(50%成功率)制造了一个高度戏剧化的叙事。
星号二:这只是软件开发任务
METR的时间范围图,衡量的是软件开发任务,且仅此而已。
这是一个相对有利于当前AI能力的专业子域:有大量代码生成训练数据,有清晰的测试和验证机制,有相对结构化的问题空间。
把这张图的趋势外推为”AI正在整体超越人类认知能力”,是一个巨大的推论跳跃。从”能完成50%成功率的16小时Python项目”到”接近通用人工智能”,中间隔着语言理解的多样性、推理的鲁棒性、常识知识的广度、物理世界的感知……
Marcus写道:
“图表只与软件开发任务有关。不是通用的……”
以及:
“相反,Wildeford关于Mythos’打破图表’的担忧是一个转移视线的做法。他说的是Mythos基本上解决了METR为基准准备的所有任务。我不怀疑这是真的。但这只在任意的50%成功率水平上为真。”
更深层的批评:符号工具的贡献被隐去了
Marcus的分析中还有一个更有洞察力的观点,往往被简化报道所遗漏。
METR的时间范围图追踪的是”指数级改善”——能力以接近指数的速度增长。这个趋势被许多人视为神经网络缩放(neural scaling)的证明,以及未来AGI到来的信号。
Marcus指出:这种改善在多大程度上来自模型本身的能力提升,在多大程度上来自符号工具的叠加?
他具体提到的是代码解释器(code interpreter)和验证器(verifier)这类工具——它们是程序性的、符号性的系统,不是神经网络的一部分。但它们大幅提升了AI完成编程任务的表现,因为:
- 代码解释器允许AI实际运行代码、检查输出、修正错误——这绕过了纯粹的”一次生成正确代码”的难题
- 验证器允许AI检查自己的输出是否满足规范——提供了一个反馈循环
Marcus认为,METR图表所展示的”进步”,大量来自这类工具的引入和改善,而不只是基础模型能力的提升。如果把符号工具剥离出去,单独看神经网络的能力提升,曲线看起来会不那么像”指数”,更像是工程改进的累积。
这是一个深刻的方法论问题:当评估中包含工具调用时,你测的是什么? 是模型的理解能力,还是模型+工具系统的综合能力?两者不是等价的,但在METR图表的叙事中,往往被混为一谈。
指数外推:最危险的认知陷阱
Marcus在文章结尾指出了最重要的认识论陷阱:
“更广泛地说,关键问题是无限的指数外推。”
人类的认知对指数增长直觉上处理很差。当你看到一张向上倾斜的曲线,本能反应是将它无限延伸——如果过去12个月AI能力翻倍,再过12个月还会翻倍。
但这个逻辑忽略了:
1. 任务空间的结构性差异
软件开发任务有一些特别有利于当前AI的属性:有大量同质化训练数据,有清晰的评估标准(代码能否运行、测试能否通过),有可以迭代的中间状态,有工具增强的可能性。其他类型的任务——战略决策、创造性写作、复杂社交判断、法律文书的模糊边界分析——并不具备这些属性。指数外推并不跨越任务类型,而公众往往把软件任务上的进步外推成所有认知任务上的同等进步。
2. 可靠性的瓶颈
METR图表测量的是50%成功率。提升到99%可靠性,可能需要与之前所有进步相当的额外工程努力。很多AI应用的真实瓶颈,不是”能不能做到”,而是”能不能可靠地做到”。从50%到95%,技术难度可能是高度非线性的,而时间范围图完全没有捕捉这个维度。
3. 分布外的失效模式
当前AI系统在分布内(类似训练数据的场景)表现出色,但在分布外(不寻常的组合、罕见的边缘情况、全新类型的挑战)仍然存在明显的脆弱性。随着AI应用场景越来越多样化,分布外场景的比例会增加,而不是减少。这是时间范围图无法反映的维度。
Marcus在早年曾写过一篇名为《深度学习正在碰壁》的文章,被大量AI研究者批评,认为他是AI悲观主义者。他在这篇新文章中提到这件事,半是苦笑,半是提醒:批判性分析的价值,不是预测失败,而是提供更准确的地图,帮助人们在技术进步中做出更好的判断。一张地图如果夸大了某个区域的范围,并不能帮你更快到达目的地,只会让你在还没到达时就宣布胜利。
另一面:METR的图表有其价值
公平地说,Marcus的批评是有针对性的,但METR的工作并不是毫无价值。
METR是少数几个系统性地尝试评估AI能力时间趋势的机构之一。他们发布的数据是真实的,方法论是公开的。问题不在于METR做错了什么,而在于下游的传播和解读出了问题。
METR自己的推文是相对精确的:
“我们将50%时间范围估计为至少16小时(95%置信区间:8.5小时到55小时),在我们的任务套件上,处于我们不引入新任务就能测量的上限。”
这段表述包含了所有重要的限定条件。是后续的转发、解读和媒体报道,将这些限定条件逐渐剥离,留下了”AI能干16小时的工作”这个戏剧性的表达。
这是一个信息衰减的典型模式:精确的科学表述,在传播中逐渐变成简化的、更戏剧化的叙事。这个问题不只在AI领域,但在AI领域尤其危险,因为恐慌和过度乐观都会导致错误的政策、投资和个人决策。
值得注意的是,METR图表的置信区间相当宽:8.5小时到55小时(95%置信区间)。这意味着研究者自己对”真实时间范围”的不确定性就跨越了一个数量级。而这个不确定性,在公众讨论中几乎完全被忽略了。大家讨论的是”16小时”这个点估计,而不是”8.5到55小时”这个宽范围。当你看到一个如此宽的置信区间,它其实在说:我们对这个数字没有很高的把握,它是一个粗略的估计。这也是Marcus建议”深吸一口气”的原因之一。
谁受益于恐慌?
Marcus的文章隐含了一个没有被直接说出来的问题:谁在受益于AI进步恐慌的传播?
AI公司受益:市值上升,融资更容易,监管讨论被引向”如何赶上”而不是”如何规范”。AI安全倡导者受益:更多的资金、更多的紧迫感流向他们的工作。媒体受益:末日叙事比细节分析更能获得点击。
这不是说这些群体在有意操控——大多数传播者只是跟随了认知捷径,选择了更简单、更戏剧化的叙事。
但结果是:一张50%成功率的软件开发基准图表,在24小时内演变成了”AI即将超越人类”的集体恐慌。
Gary Marcus的分析,提供了一个有价值的校准:在AI进展的叙事中保持方法论诚实,不是悲观主义,而是准确性。准确性,是做出好的判断的前提——无论是个人职业规划、企业AI投资,还是AI治理政策制定。
AI benchmark行业的结构性问题
这场关于METR图表的争论,实际上指向了一个更深层的行业问题:谁在评估AI,他们用什么标准评估,以及这些评估在多大程度上捕捉到了对真实用户重要的能力?
现状是令人担忧的:
评估者的利益纠葛:许多AI评估基准是由AI公司本身或其资助的机构开发的。即使METR是相对独立的,整个生态系统中仍然存在大量”自我评估”或”有倾向性评估”的现象。当一家公司声称在某个基准上”达到人类水平”,你需要问:这个基准是谁设计的?为什么选择这个基准?
基准的有效性衰减:一个基准一旦被广泛使用,AI公司就会开始针对它优化——不是改善基准想要测量的底层能力,而是改善在基准任务上的表现。这导致基准分数上升,但实际能力提升可能滞后甚至不存在。这在学术界被称为”古德哈特定律”(Goodhart’s Law):当一个度量标准变成目标,它就不再是一个好的度量标准。
单维度评估的误导性:METR的时间范围图是单维度的——它只测量软件任务完成时间。现实中的AI能力是多维度的,包括事实准确性、推理连贯性、对不熟悉情境的适应性、对歧义指令的处理、社交智能……这些维度在时间范围图上完全不可见。
50%成功率门槛的特殊性:为什么METR选择50%作为”时间范围”的定义门槛,而不是80%或95%?这个选择不是中性的。50%成功率阈值会产生比80%或95%更戏剧化的图表,因为AI在更低的成功率要求下能完成更长时间的任务。这不意味着METR在故意制造戏剧化效果,但这个选择对叙事有实质性影响,而这点在主流讨论中几乎没有人注意到。
Marcus在2025年曾与Ernest Davis合作分析了METR早期版本的方法论,指出了类似的问题。他在新文章中提到那篇分析,以此说明他的批评不是第一次也不是临时起意。这是一种持续的方法论关注,而不是对特定公司的恶意。
什么才是对AI能力的诚实评估?
如果METR的50%时间范围图有局限性,那什么样的评估才是更诚实的?
这是一个目前没有完美答案的问题,但有几个方向:
使用多个成功率门槛:除了50%,同时报告80%和95%成功率对应的任务时长,给出完整的能力分布图,而不是单点估计。
区分工具增强和原始能力:在评估报告中明确说明,当前得分有多少来自模型本身的能力,有多少来自工具调用(代码解释器、搜索引擎、验证器等)的辅助。
测试可靠性,不只是成功率峰值:对于企业用户来说,”在10次尝试中成功9次”和”在10次尝试中成功5次”是本质不同的产品。评估体系需要把可靠性作为一个独立维度来测量。
独立第三方评估机构:AI评估不应该完全由AI公司或其直接资助的机构来完成。这需要政府或学术界参与,建立独立的、有公信力的评估标准。
这些建议很多已经在AI安全研究社区内部讨论了多年,但落实进度很慢。主要阻力来自:评估标准的标准化需要各家公司协调,而协调意味着需要暴露自己的弱点;独立第三方评估需要资金和访问权限,这两者目前都不足。
Claude Mythos本身的评价
值得一提的是:Marcus的批评不是对Claude Mythos能力的否定,而是对图表解读的纠正。
他在文章中明确写道:”Claude Code是一个真实的进步;Mythos可能是在那里学到的东西上构建的。”
Claude Mythos Preview(根据Anthropic在2026年5月发布的评估信息)确实在代码生成任务上表现出了显著的能力提升。作为一个工程工具,它的实际价值是真实的。
Marcus的批评指向的是:不应该把”在受控软件任务上达到50%成功率”夸大成”AI正在取代软件工程师”或更广泛的智能超越主张。
区分”产品能力的真实进步”和”AGI到来的夸大叙事”,是技术报道和公共讨论中需要持续维护的边界。每一次基准进步,都不自动等于人类级通用智能的到来。
结语:我们需要更好的AI素养
这场关于一张图表的争论,揭示了一个更大的问题。
随着AI系统变得越来越重要,关于AI进展的公共讨论质量变得越来越关键。但大多数人——包括很多受过良好教育的技术从业者——缺乏解读AI基准测试所需的方法论素养:
- “50%成功率”意味着什么?
- 一个任务类型上的基准,能外推到其他任务类型吗?
- “时间范围”图测量的是能力还是可靠性?
- 工具的贡献如何从模型本身的贡献中区分出来?
这些问题的答案,决定了你对这张图表的正确解读。但在主流讨论中,这些问题很少被提出。
Marcus这篇文章的价值,不只在于他对这一具体图表的分析,而在于他提供了一套提问框架——一套在面对下一张”证明AI将统治世界”的图表时,可以用来保持冷静的工具。
那些想要在AI时代做出好决策的人,无论是投资者、政策制定者还是普通用户,都需要这套工具。而建立这套工具的第一步,就是理解:读懂数字,首先要读懂那些数字没有告诉你的事情。
METR的工作是有价值的,Claude Mythos的进步是真实的,但”AI已经能干16小时任务”这个叙事,需要被小心地放在正确的语境中。它是一个在软件开发任务上测量的50%成功率估计,置信区间跨越数量级,改善的原因中包含工具叠加的贡献,指数外推需要在每一步都重新检验。
这些不是泼冷水,而是让讨论保持在可以实际推论和行动的基础上的必要校准。技术进步应该被精确地记录,而不是被夸大成世界末日或新神明降临的证明。Marcus的文章,是一次迟来但必要的校准。
参考资料:
- Gary Marcus, “Misplaced panic over AI progress” - https://garymarcus.substack.com/p/misplaced-panic-over-ai-progress (2026-05-10)
- METR评估推文,METR评估Claude Mythos Preview - https://x.com/metr_evals/status/2052896621760004602 (2026-05-08)
- Ernest Davis & Gary Marcus, The Latest AI Scaling Graph (Substack, 2025) - https://open.substack.com/pub/garymarcus/p/the-latest-ai-scaling-graph-and-why
- METR时间范围图方法论说明 - https://metr.org/ (持续更新)