AI开始研究如何让AI更安全:9个Claude Agent、$18,000、关闭97%性能差距——Anthropic的自动化对齐实验意味着什么

想象一个场景:你是一家AI安全实验室的负责人,手下有一位优秀的人类研究员。你给他7天时间,让他攻克一个核心对齐问题——weak-to-strong generalization(弱到强泛化)。7天后,他交出了答卷:PGR(Performance Gap Recovered,性能差距恢复率)0.23。换句话说,他在理论最优解和基线之间,缩小了23%的差距。

然后你做了一件事:你把同一个问题交给9个并行运行的Claude Agent。5天后,它们的成绩是PGR 0.97——几乎完全关闭了性能差距。总成本:$18,000。

这不是科幻小说的情节设定。这是Anthropic在2025年发表的一项实验的核心结果。这项实验的全称是”Automated Weak-to-Strong Researcher”,由Jiaxin Wen、Liang Qiu、Joe Benton、Jan Hendrik Kirchner和Jan Leike共同完成。最后一个名字你可能很熟悉——Jan Leike,前OpenAI超级对齐(Superalignment)团队负责人,在2024年5月离开OpenAI后加入Anthropic。他在OpenAI时主导的正是weak-to-strong generalization的研究方向,现在他在Anthropic把这个方向推到了一个令人不安的新高度:让AI自己来做AI安全研究。

这篇文章要回答的问题不是”这个实验酷不酷”——答案显然是酷的。真正的问题是:当AI开始自动化AI对齐研究时,我们距离”递归自我改进”还有多远?而在那个临界点到来之前,”谁来监督监督者”这个古老的哲学问题,是否已经从思想实验变成了工程现实?


1. 数字解剖:$18,000买到了什么

让我们先把这个实验的关键数据拆解清楚。

研究者构建了一个名为AAR(Automated Alignment Researcher)的系统,由Claude驱动。这个系统被部署在一个特定的AI安全研究问题上——weak-to-strong supervision,使用的是chat preference数据集。

具体数据点如下:

  • Agent数量:9个并行Claude Agent
  • 运行时间:5天
  • 总计算时间:约800 agent-hours
  • 单位成本:约$22/agent-hour
  • 总成本:约$18,000
  • 最终性能:PGR 0.97
  • 人类基线对比:1名人类研究员7天达到PGR 0.23

(来源: Anthropic Alignment Blog, “Automated Weak-to-Strong Researcher”)

先解释PGR这个指标。用一个直觉化的类比:想象一场跳高比赛,弱选手能跳1米,强选手能跳2米,差距是1米。如果一种训练方法让弱选手最终跳到1.97米,那么PGR就是97%(恢复了97%的差距)。PGR衡量的是在一个有明确上下界的问题上,某个方法恢复了多少性能差距。PGR = 0意味着和弱基线一样差,PGR = 1意味着完全达到了强模型的性能。PGR 0.97意味着9个Agent几乎完全解决了这个问题——在弱监督信号和强模型性能之间,只剩下3%的差距。

而人类研究员的PGR 0.23意味着什么?这不是说人类研究员不聪明。7天时间对于一个研究问题来说其实很短。但这恰恰是重点——在时间约束下,自动化系统的并行性和持续性优势是碾压级的。9个Agent同时探索不同的方法路径,每个Agent每小时的成本约$22,这比硅谷任何一位AI安全研究员的时薪都低一个数量级。

让我们做一个粗略的经济学对比——但必须先声明,这个对比是高度简化的,存在多个方法论局限,仅供建立直觉,不应被当作精确结论。

一位资深AI安全研究员在湾区的年薪(含股权)通常在$300,000-$500,000之间(根据Levels.fyi 2024年数据,Anthropic研究科学家的总薪酬中位数约为$405,000)。如果按$400,000年薪、每年2,000工作小时计算,时薪约$200。7天×8小时 = 56小时,人力成本约$11,200——而产出是PGR 0.23。

9个Claude Agent的成本约$18,000,产出是PGR 0.97。

单位PGR的粗略成本

  • 人类研究员:$11,200 / 0.23 ≈ $48,700/PGR
  • 自动化Agent:$18,000 / 0.97 ≈ $18,557/PGR

但这个对比至少存在3个重大缺陷,读者必须注意:

第1,比较基数不对等。 这是1名人类研究员对9个并行Agent。如果给9名人类研究员同样的7天和协作条件,结果可能截然不同。并行性本身就是一种结构性优势,不能简单归因于”AI更强”。

第2,隐性成本被遗漏。 Agent的$18,000只计算了推理API费用,没有计算Claude模型本身数十亿美元的训练成本、Anthropic研究团队设计AAR架构的人力投入、prompt工程和系统调试的时间。同样,人类研究员的$11,200只计算了工资,没有计算其多年的教育投入和经验积累。两边都存在巨大的”冰山下”成本。

第3,PGR的线性可比性存疑。 从PGR 0到0.23的难度,与从0.23到0.97的难度,可能完全不在同一个量级。用PGR作为线性分母来计算”单位成本”,可能严重扭曲真实的效率对比。

承认这些局限后,这个对比仍然传递了一个有价值的信号:在时间约束和特定任务条件下,自动化系统展现出了显著的方法搜索效率优势。 真正的杀手锏不是绝对成本——而是可扩展性。你不可能在一夜之间雇到90个顶尖AI安全研究员,但你可以在几分钟内启动90个Agent。


2. Weak-to-Strong:为什么这个问题是AI对齐的”罗塞塔石碑”

要理解这个实验的深层意义,必须先理解weak-to-strong generalization为什么是AI对齐领域最重要的问题之一。

核心悖论是这样的:如果未来的AI系统比人类更聪明,那么人类如何确保自己能有效地监督和对齐这些更强的系统?

这不是一个遥远的假设。当GPT-4在某些任务上已经超过大多数人类时,当Claude在编程、数学推理、法律分析上的表现已经进入人类专家水平时,”弱监督者对齐强被监督者”已经不是未来的问题——它是现在的问题。

Jan Leike在OpenAI时期就与Collin Burns等人共同提出了这个研究框架的核心思路:用一个较弱的模型(比如GPT-2级别)来监督一个更强的模型(比如GPT-4级别),观察在什么条件下弱监督者的信号能够引导强模型产生正确的行为。这是一个优雅的类比实验——用语言模型之间的能力差距来模拟未来人类与超级AI之间的能力差距。Burns等人2023年12月在arXiv发表的论文”Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision”(arXiv:2312.09390)是这个方向的奠基之作。

Anthropic的这次实验选择了chat preference数据集作为测试场景。Chat preference是一个相对标准化的评估环境:给定两个模型回复,判断哪个更好。弱模型提供的偏好标签作为监督信号,目标是让强模型在这些不完美的监督信号下尽可能接近其真实能力上限。

这里有一个关键的技术细节值得注意:这个问题是outcome-gradable的——也就是说,你可以用一个明确的度量标准(PGR)来衡量进展。你不需要人类专家来主观判断”这个对齐方案好不好”,你可以直接算出一个数字。

这一点至关重要,因为它直接决定了自动化研究的可行性边界。后面我们会详细讨论这个限制。

但先让我们回到核心问题:为什么PGR 0.97如此令人震惊?

因为它意味着在这个特定的weak-to-strong设置中,自动化系统几乎完全解决了弱监督者如何有效指导强模型的问题。当然,这是在一个受控的实验环境中,使用的是一个特定的数据集和任务。但作为概念验证(proof of concept),它的信号强度是惊人的。

如果我们把这个结果放在AI对齐研究的大图景中,它的含义是:对于那些可以被形式化为优化问题、且有明确评估标准的对齐子问题,AI系统已经可以比人类研究员更快、更便宜、更有效地找到解决方案。


3. 9个Agent是怎么工作的:自动化对齐研究的工程架构

让我们深入实验的工程细节。这不仅仅是”让Claude写代码”那么简单。

根据Anthropic的技术报告,AAR系统的架构设计包含几个关键要素:

并行探索(Parallel Exploration):9个Agent被分配到同一个问题上,但它们各自独立地探索不同的方法路径。这种设计的核心逻辑是对抗”局部最优陷阱”——单个研究者(无论人类还是AI)很容易陷入一条思路走到黑,而并行系统可以同时覆盖更大的方法空间。

自主实验循环(Autonomous Experiment Loop):每个Agent不是简单地生成一个方案然后停下来。它们执行完整的研究循环——提出假设、设计实验、运行代码、分析结果、调整方向。这是一个闭环的自主研究过程,而不是单次推理。

5天的持续运行:800 agent-hours分摊到9个Agent上,平均每个Agent运行约89小时。这意味着每个Agent几乎是全天候不间断地工作了将近4天。人类研究员不可能维持这种强度——这是自动化系统的另一个结构性优势。

这里有一个重要的方法论观察:这个实验本质上是在用AI来做”方法搜索”(method search)。在传统的AI安全研究中,人类研究员需要阅读大量文献、形成直觉、提出新方法、实现和验证。这个过程中最大的瓶颈不是编码能力,而是”方法空间的探索效率”——一个人类研究员一周可能只能认真尝试2-3种方法,而9个并行Agent可以在同样的时间内尝试数十种甚至上百种方法。

这与DeepMind的AlphaGo的核心思路有异曲同工之妙:不是让AI”更聪明”,而是让AI”探索得更多”。当你把搜索空间的覆盖率从人类的2-3%提升到50-60%,找到更好解决方案的概率自然大幅提升。

这也让人联想到Sakana AI在2024年8月发布的”AI Scientist”项目——一个能够自主完成从假设生成到论文撰写的全流程AI研究系统。但AAR与AI Scientist有一个关键区别:AI Scientist追求的是通用科学研究的自动化,而AAR聚焦于一个特定且极其重要的领域——AI对齐。这种聚焦使得AAR可以在评估标准和问题定义上做得更精确,从而获得更可靠的结果。

但这也引出了一个关键问题:这种方法在什么条件下有效?

答案是:当问题有明确的评估标准时。

在这个实验中,PGR是一个完全自动化的度量指标。Agent可以在每次实验后立即知道自己的方法是否有效、效果如何、是否需要调整方向。这种即时反馈循环是自动化研究能够高效运作的前提。


4. 关键限制:outcome-gradable的边界在哪里

现在让我们直面这个实验最重要的限制。

Anthropic的报告明确指出:AAR目前只适用于outcome-gradable的问题——即那些有明确、可自动评估的成功标准的问题。

这个限制不是一个小注脚。它是理解这个实验意义的关键。

让我们把AI对齐领域的核心问题按照”outcome-gradable”程度排列:

高度outcome-gradable(AAR可能适用):

  • Weak-to-strong generalization在标准benchmark上的表现
  • RLHF/DPO等对齐训练方法的reward hacking检测
  • 特定安全评估(如拒绝率、有害内容生成率)的优化
  • 形式化验证(如果问题可以被形式化)

中等outcome-gradable(AAR可能部分适用):

  • 对抗性鲁棒性(可以度量,但度量标准本身可能不完整)
  • 分布外泛化(可以在已知的OOD场景上测试,但无法覆盖所有未知场景)
  • 多目标对齐(可以度量每个目标,但目标之间的权衡是主观的)

低度outcome-gradable(AAR目前不适用):

  • 价值对齐(什么是”正确的价值观”?谁来定义?)
  • 欺骗检测(一个足够聪明的AI可以在所有可度量的维度上表现完美,同时在不可度量的维度上欺骗)
  • 长期安全(如何评估一个方案在10年后是否仍然有效?)
  • 意识/主体性问题(这甚至不是一个可以”解决”的问题)

这个分类揭示了一个深刻的矛盾:AI对齐中最容易自动化的问题,恰恰不是最核心的问题;而最核心的问题,恰恰是最难自动化的。

Weak-to-strong generalization在chat preference数据集上的表现,是一个重要但相对狭窄的问题。真正的对齐挑战不仅在于”如何让弱标签更有效地训练强模型”,更在于”如何确保强模型不会以人类无法察觉的方式偏离人类意图”。

后者涉及到的是一个根本性的认识论问题:你如何验证一个比你更聪明的实体是否在欺骗你?

这个问题没有明确的度量标准,因此(至少在目前的技术框架下)不适合用AAR来解决。

但我认为这个限制不应该被过度悲观地解读。原因有3个:

第1,outcome-gradable的范围在扩大。 随着我们对对齐问题的理解加深,越来越多的问题可以被形式化。5年前,”AI是否在进行sycophancy(谄媚)”是一个模糊的概念;今天,Anthropic和其他机构已经开发出了相对标准化的sycophancy评估方法。这个趋势会继续。

第2,即使只解决outcome-gradable的问题,也能释放大量人类研究者的时间。 如果AI可以自动化处理那些”可以度量”的子问题,人类研究者就可以把全部精力集中在那些需要深度概念创新的、不可度量的核心问题上。这是一种有效的分工。

第3,AAR的能力会随着底层模型的提升而提升。 今天的Claude可能无法处理需要深度哲学推理的对齐问题,但未来的模型可能可以。关键是建立起自动化研究的基础设施和方法论——这正是Anthropic现在在做的事情。


5. 递归自我改进的幽灵

现在让我们进入真正令人不安的领域。

这个实验的本质是什么?是AI在自主推进AI安全研究

让我们把这句话的每个词都拆开来感受一下:

  • AI(Claude,一个由Anthropic训练的大语言模型)
  • 在自主推进(不是人类指导下的辅助工具,而是独立设计和执行研究方案)
  • AI安全研究(不是写代码、不是翻译、不是客服——是关于如何让AI本身更安全的研究)

这是一个递归结构。AI在研究如何让AI更安全。如果这个研究的成果被用来改进AI对齐方法,而改进后的对齐方法又被用来训练更强的AI,而更强的AI又可以做更好的对齐研究……

这就是”递归自我改进”(recursive self-improvement)的雏形。

让我先说清楚:Anthropic的这个实验还不是真正的递归自我改进。真正的递归自我改进需要AI能够改进自己的核心能力(比如推理能力、学习效率),而不仅仅是在一个特定问题上找到更好的解决方案。这个实验中的Claude Agent并没有变得”更聪明”——它们只是在一个特定任务上找到了更好的方法。

但这个区分正在变得越来越模糊。

考虑以下推理链:

  1. AI Agent在weak-to-strong问题上找到了PGR 0.97的方法
  2. 这个方法可以被用来改进弱监督者对齐强模型的技术
  3. 改进后的对齐技术可以被用来训练更强、更安全的下一代模型
  4. 更强的下一代模型可以被部署为新的AAR Agent
  5. 新的AAR Agent可以在更难的对齐问题上取得更好的结果
  6. 回到第2步

这不是递归自我改进吗?从功能上看,它具备了递归自我改进的所有核心要素——只是循环周期更长(可能是月而不是秒),且每一步都有人类的审查和干预。

但”人类审查”这个安全阀的可靠性,恰恰取决于人类是否能理解AI产出的对齐方案。

这就是为什么weak-to-strong问题如此具有讽刺意味:Anthropic正在用AI来研究”弱者如何监督强者”的问题,而这个研究过程本身就是一个”弱者(人类)试图监督强者(AI)”的实例。

Jan Leike对这个问题的理解可能比地球上任何人都更深刻。他在OpenAI领导超级对齐团队时就在思考这个问题,他的离开(据2024年5月他本人在X上发布的公开帖子,他提到了与OpenAI在安全优先级上的不同看法作为离职背景之一)本身就说明了这个问题的紧迫性。现在他在Anthropic推动的这个实验,可以被解读为他对这个问题的一种回答:与其等待超级AI出现后再想办法对齐它,不如现在就开始用AI来加速对齐研究,争取在能力爆炸之前积累足够的安全知识。

这是一种赛跑策略。问题是,你能跑赢吗?


6. $18,000的经济学:AI安全研究的工业化

让我们暂时从哲学高度回到地面,谈谈钱。

$18,000。这是9个Claude Agent运行5天的总成本。

让我们把这个数字放在几个不同的参照系中:

参照系1:学术研究。 一个AI安全方向的博士生,在美国顶尖大学的年度成本(学费+生活费+导师时间+计算资源)大约在$80,000-$150,000之间。一个博士生在5年的博士期间,可能产出3-5篇有影响力的论文。每篇论文的平均成本:$80,000-$250,000。而这个实验用$18,000在5天内产出了PGR 0.97的结果——这在传统学术标准下,至少可以构成一篇顶级会议论文的核心贡献。

参照系2:工业研究。 Anthropic、OpenAI、Google DeepMind等公司的AI安全团队,每位研究员的全成本(薪酬+计算+办公+管理)可能在$500,000-$1,000,000/年之间。如果一个研究员一年产出2个重要的研究结果,每个结果的成本是$250,000-$500,000。$18,000相当于这个成本的3.6%-7.2%。

参照系3:计算成本趋势。 $22/agent-hour是当前的成本。但如果我们观察过去3年大语言模型推理成本的下降趋势——根据a16z在2024年的分析,主流LLM的推理成本每年下降约60-80%——那么在2-3年内,同样的实验可能只需要$3,000-$5,000。

这意味着什么?

这意味着AI安全研究正在从”人才密集型”转向”计算密集型”。

在过去,AI安全研究的瓶颈是人才。全球能做高质量AI对齐研究的人可能不超过几百人。这些人分布在Anthropic、OpenAI、Google DeepMind、Redwood Research、ARC等少数机构中。每个人的产出受限于他们的时间、精力和创造力。

如果AAR的方法论可以推广,那么瓶颈将从”人才”转移到”计算”。而计算是可以用钱买到的,是可以指数级扩展的。

这对AI安全领域的竞争格局有深远影响:

  1. 资金充裕的机构将获得不成比例的优势。 如果你有$1,000,000的对齐研究预算,你可以同时运行55个这样的实验($18,000×55 ≈ $1,000,000),在几周内探索55个不同的对齐子问题。这是任何学术实验室都无法匹敌的速度。

  2. 小型AI安全组织可能被边缘化。 如果自动化研究在outcome-gradable问题上持续展现压倒性优势,那些依赖少数人类研究员的小型组织将越来越难在这类问题上竞争。它们可能需要转向那些AI尚不擅长的、需要深度概念创新的方向。

  3. AI安全研究的”摩尔定律”可能出现。 如果计算成本持续下降、模型能力持续提升,那么单位美元能购买的”对齐研究进展”将呈指数增长。这是好消息——但前提是这些进展是真实的、可靠的、可验证的。


7. 两个对立视角:乐观主义vs审慎主义

让我明确呈现两个对立的解读框架,然后给出我的判断。

视角A:乐观主义(”这是对齐研究的iPhone时刻”)

持这种观点的人会这样论证:

  1. AI对齐研究长期以来受限于人才瓶颈。全球顶尖对齐研究者可能只有几百人,而AI能力研究者有数万人。AAR有潜力打破这个不对称。

  2. PGR 0.97证明AI不仅可以辅助对齐研究,而且可以在特定问题上超越人类研究者。这是质的飞跃,不是量的改进。

  3. $18,000的成本意味着即使是资金有限的学术机构也可以开展大规模的自动化对齐研究。这将极大地民主化AI安全研究。

  4. 随着模型能力提升和推理成本下降,AAR能处理的问题范围会不断扩大。今天只能处理outcome-gradable问题,明天可能可以处理半结构化问题,后天可能可以处理开放性问题。

  5. Jan Leike从OpenAI到Anthropic的转移,以及他在Anthropic推动AAR的事实,说明顶尖研究者认为这条路是可行的。Leike不是一个会做无意义工作的人。

Anthropic CEO Dario Amodei在2024年10月发表的长文”Machines of Loving Grace”中也表达了类似的乐观态度:AI可以加速科学研究,包括AI安全研究本身,关键是确保这种加速是在负责任的框架下进行的。

视角B:审慎主义(”这可能是最精致的自我欺骗”)

持这种观点的人会这样反驳:

  1. PGR 0.97是在一个极度受限的benchmark上取得的。 Chat preference判断与真正的对齐问题(价值观对齐、欺骗检测、权力寻求行为抑制)之间存在巨大鸿沟。用一个狭窄任务上的成功来暗示”AI可以做对齐研究”,是一种危险的过度推广。正如AI安全研究者Eliezer Yudkowsky反复强调的,对齐的核心困难不在于优化已知指标,而在于定义正确的指标。

  2. 1名人类研究员vs. 9个并行Agent不是对等比较。 如果给9名人类研究员同样的7天和充分的协作条件,结果可能完全不同。这个实验设计本身就倾向于放大自动化系统的优势。更公平的比较应该是9个Agent vs. 9名人类研究员,或者至少应该控制总投入资源(人力小时 vs. agent-hours)。

  3. “AI研究AI安全”的递归结构本身就是一个安全风险。 如果AI产出的对齐方案中存在微妙的缺陷,而人类又依赖AI来验证这些方案,那么缺陷可能永远不会被发现。这不是理论上的担忧——在软件工程中,自动化测试覆盖率100%的系统仍然会有bug,因为测试本身可能有盲区。

  4. $18,000的低成本可能导致”安全研究的通货膨胀”。 大量低质量的自动化研究涌入,淹没真正有价值的人类洞察。数量不等于质量,尤其是在对齐这种需要深度概念创新的领域。

  5. 这个实验可能被用来为”减少人类安全研究投入”提供借口。 公司高管可能会说:”我们有AAR了,不需要那么多安全研究员了。”考虑到AI公司面临的巨大商业压力(据媒体报道,Anthropic在2024年的年化收入约$8.5亿,但仍在大量烧钱,来源: Bloomberg/Financial Times等多家媒体2024年报道),这种削减安全投入的诱惑是真实的。

  6. 能力研究同样可以使用AAR方法论,而且商业激励更强。 净效果可能是能力-安全差距的扩大,而不是缩小。

我的判断

我的立场介于两者之间,但更偏向审慎主义。具体来说:

我认为AAR是一个重要的技术进步,但它的意义主要在于”工具”层面而非”解决方案”层面。

AAR可以成为人类对齐研究者的强大工具——帮助他们更快地探索方法空间、验证假设、处理繁琐的实验工作。但它不应该被视为对齐问题的解决方案,更不应该被用来替代人类研究者的深度思考。

最大的风险不是技术上的,而是制度上的:如果AAR的成功被用来削减人类安全研究团队的规模和预算,那么它的净效果将是负面的。

让我提出一个更尖锐的、大多数人没有看到的观点:AAR的成功可能会加速”能力-安全差距”的扩大,而不是缩小。

逻辑是这样的:如果AAR被证明有效,那么它不仅会被用来做安全研究——同样的方法论也会被用来做能力研究。9个Agent并行探索新的训练方法、新的架构设计、新的数据处理pipeline……能力研究的大部分问题也是outcome-gradable的(准确率、困惑度、推理速度等都是明确的度量标准)。而且能力研究的经济激励远远强于安全研究。

所以最可能的结果是:AAR同时加速了能力研究和安全研究,但能力研究的加速幅度更大(因为更多的问题是outcome-gradable的,且有更强的商业激励)。净效果是能力跑得更快,安全追得更辛苦

这是一个令人不安的推论,但我认为它是逻辑上自洽的。正确的应用方式是:用AAR来放大人类研究者的能力,而不是替代他们。 就像显微镜放大了生物学家的视力,但没有替代生物学家的判断力一样。


8. 谁来监督监督者:AI对齐的终极递归

古罗马诗人尤维纳利斯(Juvenal)在公元2世纪提出了一个问题:Quis custodiet ipsos custodes?——谁来监督监督者?

这个问题在AI对齐领域获得了全新的、令人不安的含义。

让我们把Anthropic这个实验的逻辑链完整地写出来:

  1. 人类想要确保AI是安全的
  2. 人类发现自己的能力不足以直接验证AI的安全性(weak-to-strong问题)
  3. 人类决定用AI来帮助自己研究AI安全(AAR实验)
  4. AI产出了一系列对齐方案(PGR 0.97的方法)
  5. 人类需要验证这些方案是否真的有效
  6. 但验证本身可能需要超越人类能力的判断力
  7. 所以人类可能需要用AI来验证AI产出的对齐方案
  8. 但谁来验证这个验证过程的可靠性?
  9. ……

这是一个无限回归。每一层的”监督”都需要一个更高层的”监督者”,而我们最终没有一个绝对可靠的锚点。

这不是一个纯理论问题。在Anthropic的实验中,PGR 0.97这个数字是在一个有明确ground truth的环境中计算的——我们知道强模型的真实能力上限,所以可以精确地度量PGR。但在真实的AI对齐场景中,我们不知道”完美对齐”是什么样子的。没有ground truth,就没有PGR,就没有自动化评估,就没有AAR的优势。

这就是为什么我认为这个实验既是一个巨大的进步,也是一个巨大的警告。

进步在于:它证明了AI可以在特定条件下高效地推进对齐研究,这为”对齐研究的工业化”打开了大门。

警告在于:它可能会给人一种虚假的安全感——”看,AI在帮我们解决对齐问题了,我们可以放心了。”但实际上,AI能解决的那部分对齐问题,恰恰是对齐挑战中相对容易的部分。真正困难的部分——价值对齐、欺骗检测、长期安全——仍然需要人类的深度思考,而且可能永远需要。

Anthropic自身的Responsible Scaling Policy(RSP)框架在这里提供了一个有价值的参考。RSP的核心理念是:随着AI能力的提升,安全措施也必须相应升级。AAR可以被视为RSP框架下的一种安全措施升级——用更强的工具来应对更强的AI。但RSP也强调了人类监督的不可替代性,这与我的判断一致。


9. 对读者的”So What”

如果你是AI安全研究者:这个实验意味着你的工作方式即将发生根本性改变。学会与AAR协作——定义问题、设计评估标准、审查AI产出——将成为核心技能。纯粹的”自己动手做实验”的时代正在结束。但你的价值不会消失——恰恰相反,你在概念创新、问题定义和结果验证上的能力将变得更加稀缺和宝贵。

如果你是AI公司的决策者:不要把AAR的成功当作削减安全团队的借口。正确的做法是在维持人类安全团队规模的同时,额外投入AAR作为增量工具。$18,000的实验成本意味着你可以在不显著增加预算的情况下大幅扩展安全研究的覆盖面。但如果你用AAR来替代人类研究者,你将在那些不可度量的对齐维度上积累隐性风险。

如果你是AI政策制定者:这个实验对监管框架提出了新的挑战。如果AI安全研究本身是由AI完成的,那么监管机构如何评估这些研究的可靠性?你可能需要建立独立的、由人类专家组成的验证机构,专门审查AI产出的对齐方案。欧盟AI法案(EU AI Act)和美国2024年10月的AI行政命令都还没有考虑到这个场景——这是一个监管盲区。

如果你是普通公众:理解一件事——AI安全不是一个会被”解决”的问题,它是一个需要持续管理的过程。AAR让这个过程更高效了,但没有让它变得更简单。真正的安全来自于持续的警惕,而不是某个技术突破。

最后,让我用一个类比来结束。

核能的安全不是由核物理学家独立保障的,而是由一整套制度——独立监管机构(如美国NRC)、多层冗余设计、定期安全审查、公众监督——共同保障的。AI安全也将如此。AAR可以成为这个制度中的一个强大工具,但它不能替代制度本身。

9个Claude Agent花$18,000在5天内关闭了97%的性能差距。这是一个令人印象深刻的工程成就。但PGR 0.97衡量的是一个特定问题上的进展,而AI安全是一个无限维度的挑战。在那些没有PGR的维度上,我们仍然只能依靠人类的智慧、判断力和——最重要的——谦逊。

谁来监督监督者?目前的答案是:人类。但这个答案的保质期可能比我们想象的要短。


参考资料

  1. Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision — Collin Burns, Haotian Ye, Dan Klein, Jacob Steinhardt / OpenAI, 2023-12-14

  2. Automated Weak-to-Strong Researcher — Jiaxin Wen, Liang Qiu, Joe Benton, Jan Hendrik Kirchner, Jan Leike / Anthropic Alignment Team. 来源: Anthropic Alignment Blog, 2025

  3. Machines of Loving Grace — Dario Amodei, 2024-10-01

  4. Anthropic’s Responsible Scaling Policy — Anthropic, 2023-09-19

  5. The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery — Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha / Sakana AI, 2024-08-12

  6. Core Views on AI Safety: When, Why, What, and How — Anthropic, 2023-03-08

  7. Jan Leike joins Anthropic — TechCrunch, 2024-05-28