深吸一口气：那张让全球恐慌的AI图表，其实只测了50%成功率——Gary Marcus用三个被忽视的事实，解构了METR的Claude Mythos评估

2026年5月8日，一张图表在AI圈引发了近乎集体恐慌。

这是由AI评估机构METR发布的”时间范围图”（time horizon graph）的最新版本。图表显示：Claude Mythos Preview在早期评估中，能够完成人类工程师需要16小时才能完成的软件开发任务——50%成功率。

随后Twitter上充斥着末日预言：

“我们已经到了不可逆的临界点”
“AI软件工程师的时间线比预测的快十年”
“图表已经被打破，METR没有更难的任务可以测了”

连通常相对冷静的预测者Peter Wildeford也担忧，Claude Mythos已经”打破了图表”——意思是模型能力已经超出了METR当前基准的测量上限。

两天后，2026年5月10日，Gary Marcus在Substack发表了一篇标题直接的文章：《对AI进步的误解性恐慌》（Misplaced Panic Over AI Progress）。

他的核心主张：那张引发恐慌的图表，被严重误读了。

被遗漏的”两个星号”

Marcus在文章中开门见山：他并不质疑METR的数据本身，而是指出人们在传播和解读这张图表时，系统性地忽略了两个关键约束条件——他称之为”两个重要星号”。

星号一：50%不是可靠性

METR图表测量的，是AI完成特定时长软件任务的50%成功率阈值。

换句话说：在16小时任务上，Claude Mythos有50%的概率成功，50%的概率失败。

Marcus写道：

“如果你仔细阅读METR关于其图表的推文，测量的是实现50%成功率。不是100%，也不是99%，甚至不是90%。（还有一个80%版本，看起来没那么令人不安；它有相同的一般形状，但整体表现低得多。）”

这个细节，在大量转发和讨论中几乎完全消失了。

一个50%成功率的AI，意味着：如果让它完成一个真实的、需要16小时人工时的软件任务，有一半概率失败。对于AI替代人类工程师的讨论，50%成功率是一个什么水平？在大多数工程场景中，这意味着你需要2个AI尝试才能完成1个任务——而且你需要某种机制来判断哪次尝试是成功的。

Marcus进一步指出：即使在METR当前的任务集上，如果把成功率门槛从50%提高到80%或95%，”图表被打破”的说法就站不住脚了——那个刻度下，仍然有大量任务Claude Mythos无法可靠完成。

“图表被打破”的恐慌，本质上是用一个低门槛（50%成功率）制造了一个高度戏剧化的叙事。

星号二：这只是软件开发任务

METR的时间范围图，衡量的是软件开发任务，且仅此而已。

这是一个相对有利于当前AI能力的专业子域：有大量代码生成训练数据，有清晰的测试和验证机制，有相对结构化的问题空间。

把这张图的趋势外推为”AI正在整体超越人类认知能力”，是一个巨大的推论跳跃。从”能完成50%成功率的16小时Python项目”到”接近通用人工智能”，中间隔着语言理解的多样性、推理的鲁棒性、常识知识的广度、物理世界的感知……

Marcus写道：

“图表只与软件开发任务有关。不是通用的……”

以及：

“相反，Wildeford关于Mythos’打破图表’的担忧是一个转移视线的做法。他说的是Mythos基本上解决了METR为基准准备的所有任务。我不怀疑这是真的。但这只在任意的50%成功率水平上为真。”

更深层的批评：符号工具的贡献被隐去了

Marcus的分析中还有一个更有洞察力的观点，往往被简化报道所遗漏。

METR的时间范围图追踪的是”指数级改善”——能力以接近指数的速度增长。这个趋势被许多人视为神经网络缩放（neural scaling）的证明，以及未来AGI到来的信号。

Marcus指出：这种改善在多大程度上来自模型本身的能力提升，在多大程度上来自符号工具的叠加？

他具体提到的是代码解释器（code interpreter）和验证器（verifier）这类工具——它们是程序性的、符号性的系统，不是神经网络的一部分。但它们大幅提升了AI完成编程任务的表现，因为：

代码解释器允许AI实际运行代码、检查输出、修正错误——这绕过了纯粹的”一次生成正确代码”的难题
验证器允许AI检查自己的输出是否满足规范——提供了一个反馈循环

Marcus认为，METR图表所展示的”进步”，大量来自这类工具的引入和改善，而不只是基础模型能力的提升。如果把符号工具剥离出去，单独看神经网络的能力提升，曲线看起来会不那么像”指数”，更像是工程改进的累积。

这是一个深刻的方法论问题：当评估中包含工具调用时，你测的是什么？ 是模型的理解能力，还是模型+工具系统的综合能力？两者不是等价的，但在METR图表的叙事中，往往被混为一谈。

指数外推：最危险的认知陷阱

Marcus在文章结尾指出了最重要的认识论陷阱：

“更广泛地说，关键问题是无限的指数外推。”

人类的认知对指数增长直觉上处理很差。当你看到一张向上倾斜的曲线，本能反应是将它无限延伸——如果过去12个月AI能力翻倍，再过12个月还会翻倍。

但这个逻辑忽略了：

1. 任务空间的结构性差异
软件开发任务有一些特别有利于当前AI的属性：有大量同质化训练数据，有清晰的评估标准（代码能否运行、测试能否通过），有可以迭代的中间状态，有工具增强的可能性。其他类型的任务——战略决策、创造性写作、复杂社交判断、法律文书的模糊边界分析——并不具备这些属性。指数外推并不跨越任务类型，而公众往往把软件任务上的进步外推成所有认知任务上的同等进步。

2. 可靠性的瓶颈
METR图表测量的是50%成功率。提升到99%可靠性，可能需要与之前所有进步相当的额外工程努力。很多AI应用的真实瓶颈，不是”能不能做到”，而是”能不能可靠地做到”。从50%到95%，技术难度可能是高度非线性的，而时间范围图完全没有捕捉这个维度。

3. 分布外的失效模式
当前AI系统在分布内（类似训练数据的场景）表现出色，但在分布外（不寻常的组合、罕见的边缘情况、全新类型的挑战）仍然存在明显的脆弱性。随着AI应用场景越来越多样化，分布外场景的比例会增加，而不是减少。这是时间范围图无法反映的维度。

Marcus在早年曾写过一篇名为《深度学习正在碰壁》的文章，被大量AI研究者批评，认为他是AI悲观主义者。他在这篇新文章中提到这件事，半是苦笑，半是提醒：批判性分析的价值，不是预测失败，而是提供更准确的地图，帮助人们在技术进步中做出更好的判断。一张地图如果夸大了某个区域的范围，并不能帮你更快到达目的地，只会让你在还没到达时就宣布胜利。

另一面：METR的图表有其价值

公平地说，Marcus的批评是有针对性的，但METR的工作并不是毫无价值。

METR是少数几个系统性地尝试评估AI能力时间趋势的机构之一。他们发布的数据是真实的，方法论是公开的。问题不在于METR做错了什么，而在于下游的传播和解读出了问题。

METR自己的推文是相对精确的：

“我们将50%时间范围估计为至少16小时（95%置信区间：8.5小时到55小时），在我们的任务套件上，处于我们不引入新任务就能测量的上限。”

这段表述包含了所有重要的限定条件。是后续的转发、解读和媒体报道，将这些限定条件逐渐剥离，留下了”AI能干16小时的工作”这个戏剧性的表达。

这是一个信息衰减的典型模式：精确的科学表述，在传播中逐渐变成简化的、更戏剧化的叙事。这个问题不只在AI领域，但在AI领域尤其危险，因为恐慌和过度乐观都会导致错误的政策、投资和个人决策。

值得注意的是，METR图表的置信区间相当宽：8.5小时到55小时（95%置信区间）。这意味着研究者自己对”真实时间范围”的不确定性就跨越了一个数量级。而这个不确定性，在公众讨论中几乎完全被忽略了。大家讨论的是”16小时”这个点估计，而不是”8.5到55小时”这个宽范围。当你看到一个如此宽的置信区间，它其实在说：我们对这个数字没有很高的把握，它是一个粗略的估计。这也是Marcus建议”深吸一口气”的原因之一。

谁受益于恐慌？

Marcus的文章隐含了一个没有被直接说出来的问题：谁在受益于AI进步恐慌的传播？

AI公司受益：市值上升，融资更容易，监管讨论被引向”如何赶上”而不是”如何规范”。AI安全倡导者受益：更多的资金、更多的紧迫感流向他们的工作。媒体受益：末日叙事比细节分析更能获得点击。

这不是说这些群体在有意操控——大多数传播者只是跟随了认知捷径，选择了更简单、更戏剧化的叙事。

但结果是：一张50%成功率的软件开发基准图表，在24小时内演变成了”AI即将超越人类”的集体恐慌。

Gary Marcus的分析，提供了一个有价值的校准：在AI进展的叙事中保持方法论诚实，不是悲观主义，而是准确性。准确性，是做出好的判断的前提——无论是个人职业规划、企业AI投资，还是AI治理政策制定。

AI benchmark行业的结构性问题

这场关于METR图表的争论，实际上指向了一个更深层的行业问题：谁在评估AI，他们用什么标准评估，以及这些评估在多大程度上捕捉到了对真实用户重要的能力？

现状是令人担忧的：

评估者的利益纠葛：许多AI评估基准是由AI公司本身或其资助的机构开发的。即使METR是相对独立的，整个生态系统中仍然存在大量”自我评估”或”有倾向性评估”的现象。当一家公司声称在某个基准上”达到人类水平”，你需要问：这个基准是谁设计的？为什么选择这个基准？

基准的有效性衰减：一个基准一旦被广泛使用，AI公司就会开始针对它优化——不是改善基准想要测量的底层能力，而是改善在基准任务上的表现。这导致基准分数上升，但实际能力提升可能滞后甚至不存在。这在学术界被称为”古德哈特定律”（Goodhart’s Law）：当一个度量标准变成目标，它就不再是一个好的度量标准。

单维度评估的误导性：METR的时间范围图是单维度的——它只测量软件任务完成时间。现实中的AI能力是多维度的，包括事实准确性、推理连贯性、对不熟悉情境的适应性、对歧义指令的处理、社交智能……这些维度在时间范围图上完全不可见。

50%成功率门槛的特殊性：为什么METR选择50%作为”时间范围”的定义门槛，而不是80%或95%？这个选择不是中性的。50%成功率阈值会产生比80%或95%更戏剧化的图表，因为AI在更低的成功率要求下能完成更长时间的任务。这不意味着METR在故意制造戏剧化效果，但这个选择对叙事有实质性影响，而这点在主流讨论中几乎没有人注意到。

Marcus在2025年曾与Ernest Davis合作分析了METR早期版本的方法论，指出了类似的问题。他在新文章中提到那篇分析，以此说明他的批评不是第一次也不是临时起意。这是一种持续的方法论关注，而不是对特定公司的恶意。

什么才是对AI能力的诚实评估？

如果METR的50%时间范围图有局限性，那什么样的评估才是更诚实的？

这是一个目前没有完美答案的问题，但有几个方向：

使用多个成功率门槛：除了50%，同时报告80%和95%成功率对应的任务时长，给出完整的能力分布图，而不是单点估计。

区分工具增强和原始能力：在评估报告中明确说明，当前得分有多少来自模型本身的能力，有多少来自工具调用（代码解释器、搜索引擎、验证器等）的辅助。

测试可靠性，不只是成功率峰值：对于企业用户来说，”在10次尝试中成功9次”和”在10次尝试中成功5次”是本质不同的产品。评估体系需要把可靠性作为一个独立维度来测量。

独立第三方评估机构：AI评估不应该完全由AI公司或其直接资助的机构来完成。这需要政府或学术界参与，建立独立的、有公信力的评估标准。

这些建议很多已经在AI安全研究社区内部讨论了多年，但落实进度很慢。主要阻力来自：评估标准的标准化需要各家公司协调，而协调意味着需要暴露自己的弱点；独立第三方评估需要资金和访问权限，这两者目前都不足。

Claude Mythos本身的评价

值得一提的是：Marcus的批评不是对Claude Mythos能力的否定，而是对图表解读的纠正。

他在文章中明确写道：”Claude Code是一个真实的进步；Mythos可能是在那里学到的东西上构建的。”

Claude Mythos Preview（根据Anthropic在2026年5月发布的评估信息）确实在代码生成任务上表现出了显著的能力提升。作为一个工程工具，它的实际价值是真实的。

Marcus的批评指向的是：不应该把”在受控软件任务上达到50%成功率”夸大成”AI正在取代软件工程师”或更广泛的智能超越主张。

区分”产品能力的真实进步”和”AGI到来的夸大叙事”，是技术报道和公共讨论中需要持续维护的边界。每一次基准进步，都不自动等于人类级通用智能的到来。

结语：我们需要更好的AI素养

这场关于一张图表的争论，揭示了一个更大的问题。

随着AI系统变得越来越重要，关于AI进展的公共讨论质量变得越来越关键。但大多数人——包括很多受过良好教育的技术从业者——缺乏解读AI基准测试所需的方法论素养：

“50%成功率”意味着什么？
一个任务类型上的基准，能外推到其他任务类型吗？
“时间范围”图测量的是能力还是可靠性？
工具的贡献如何从模型本身的贡献中区分出来？

这些问题的答案，决定了你对这张图表的正确解读。但在主流讨论中，这些问题很少被提出。

Marcus这篇文章的价值，不只在于他对这一具体图表的分析，而在于他提供了一套提问框架——一套在面对下一张”证明AI将统治世界”的图表时，可以用来保持冷静的工具。

那些想要在AI时代做出好决策的人，无论是投资者、政策制定者还是普通用户，都需要这套工具。而建立这套工具的第一步，就是理解：读懂数字，首先要读懂那些数字没有告诉你的事情。

METR的工作是有价值的，Claude Mythos的进步是真实的，但”AI已经能干16小时任务”这个叙事，需要被小心地放在正确的语境中。它是一个在软件开发任务上测量的50%成功率估计，置信区间跨越数量级，改善的原因中包含工具叠加的贡献，指数外推需要在每一步都重新检验。

这些不是泼冷水，而是让讨论保持在可以实际推论和行动的基础上的必要校准。技术进步应该被精确地记录，而不是被夸大成世界末日或新神明降临的证明。Marcus的文章，是一次迟来但必要的校准。

参考资料:

Gary Marcus, “Misplaced panic over AI progress” - https://garymarcus.substack.com/p/misplaced-panic-over-ai-progress (2026-05-10)
METR评估推文，METR评估Claude Mythos Preview - https://x.com/metr_evals/status/2052896621760004602 (2026-05-08)
Ernest Davis & Gary Marcus, The Latest AI Scaling Graph (Substack, 2025) - https://open.substack.com/pub/garymarcus/p/the-latest-ai-scaling-graph-and-why
METR时间范围图方法论说明 - https://metr.org/ (持续更新)