Anthropic Mythos「社会操纵能力超阈值」:AI能力边界如何被量化,谁来决定红线在哪

2026年4月12日,一条来自Business Insider的报道开始在AI从业者圈子里迅速传播,引发了广泛讨论:Anthropic研发了一个名为「Mythos」的前沿AI模型,但据报道决定不向公众发布,原因是该模型的「对话式说服和社会操纵能力」超出了公司内部制定的安全阈值。

这条消息引发了大量讨论,但绝大多数讨论都停留在一个层面:这件事宏观上意味着什么——AI会不会变得太危险?人类能控制AI吗?AI公司能自我监管吗?

这些问题值得讨论,但它们都回避了一个更根本、更紧迫、更可操作的问题:「社会操纵能力超出安全阈值」这句话,到底意味着什么?「阈值」是如何定义的?谁定义的?基于什么证据?这个决定的过程是否透明?

当我们无法回答这些问题时,「Anthropic选择不发布Mythos」这个事实就缺乏可以被外部检验的意义——它可以是真正的安全决策,也可以是一次精心策划的公关操作,而我们没有足够的信息区分两者。

一、Anthropic的RSP体系:能力评估的官方框架

要理解「安全阈值」的含义,必须先理解Anthropic的责任扩展政策(Responsible Scaling Policy,简称RSP)体系。

Anthropic于2023年9月发布了RSP 1.0,这是AI行业第一个系统性的内部能力评估和治理框架。截至2026年4月2日,RSP已更新到3.1版本。这份公开文件是目前最接近「官方安全阈值定义」的材料。

RSP的核心架构围绕「AI安全等级」(AI Safety Levels,简称ASL)展开:

  • ASL-1:能力有限,不构成全球性风险
  • ASL-2:当前大多数前沿模型所处等级,有有限的「危险能力」(dangerous capabilities),需要一定程度的保障措施
  • ASL-3:能力达到可以显著协助开发大规模毁灭性武器(CBRN)或自主复制自身的水平,需要严格保障措施
  • ASL-4及以上:未明确描述,目前Anthropic表示没有准备好应对这一等级的保障措施

根据RSP 3.1,Anthropic在模型达到ASL-3能力阈值之前,必须确认已建立「足以降低模型对社会构成不可接受风险」的保障措施。如果达到ASL-3能力而没有足够保障措施,按照RSP规定,开发或部署应当暂停。

Mythos的案例,从这个框架来看,有两种可能的解读:

  1. 该模型的「社会操纵能力」触发了某种类似ASL-3的评估阈值,但具体保障措施尚未到位,因此决定不发布
  2. 该模型超出了RSP现有框架所能处理的能力范围,Anthropic选择主动公告而非静默搁置

两种解读代表了截然不同的决策机制,但Anthropic目前没有提供足够的细节来区分两者。

二、「社会操纵能力」如何被量化?这是核心挑战

现在进入最难、也最重要的问题:「对话式说服和社会操纵能力」怎么测量?

这不是一个技术问题,更是一个哲学和方法论问题。「社会操纵」不像「编写病毒代码的能力」或「指导合成危险化学品的能力」——后两者有相对明确的技术基准(模型是否能输出某类具体内容),前者的边界模糊得多。

「说服」是一个连续谱系:激励性演讲、销售话术、政治宣传、认知操纵,在「技术实现」层面使用的都是类似的语言机制,只是目的、对象和规模不同。当我们说一个AI模型的「社会操纵能力超出安全阈值」,我们需要能够回答:

  • 在哪些具体场景下,该模型表现出了超越安全阈值的「操纵能力」?
  • 这些场景是如何被识别和设计的?(红队测试?对照实验?用户研究?)
  • 「安全阈值」的具体标准是什么?(操纵成功率超过X%?在N人样本中通过了Y项测试?)
  • 能力测量的可重复性如何?(不同评估者重复测试,结果一致吗?)

据报道,Anthropic的内部评估发现了Mythos在某些场景下表现出「超出阈值」的操纵倾向,但目前公开信息中没有上述问题的具体答案。这是一个可观察的信息缺口,也是一个关键的透明度缺陷。

这里必须澄清一点:这不是在质疑Anthropic决策的诚意。Anthropic主动公告「我们造出了某个东西但不打算发布它」,本身就是一种罕见的透明度表态。问题是,这种表态的可验证性——外部人士是否能独立评估该决定的合理性——依然严重不足。

三、行业对比:不同公司的能力评估透明度

Anthropic并非第一家面对「太强大而不能发布」困境的AI公司,但不同公司的处理方式有显著差异。

OpenAI GPT-4的「延迟发布」:2023年3月GPT-4发布时,OpenAI发布了一份111页的技术报告(System Card),其中包含专门的「危险能力评估」章节,详细描述了在「生物武器辅助」、「网络安全攻击」等场景下的红队测试方法和结论。虽然具体测试协议没有完全公开,但报告至少提供了足够的结构性信息,让外部专家可以评估评估方法的合理性。

Google DeepMind:对于Gemini Ultra的评估,Google同样发布了技术报告,在「能力」和「安全」两个维度分别进行了系统性测试,包括明确的CBRN(化学、生物、放射性、核武器)辅助能力测试协议。

Anthropic当前的处理方式:Anthropic发布了RSP框架,提供了「原则层面」的透明度。但对于Mythos的具体评估,目前没有类似GPT-4 System Card的详细技术文档。这不是说Anthropic的决定是错误的,而是说,在「可验证性」这个维度,Anthropic的披露深度低于其竞争者。

这一对比揭示了AI安全评估领域目前的一个系统性问题:行业内没有统一的「危险能力评估报告」标准,每家公司都在用自己的方式披露(或不披露)能力评估结果,外部专家和监管机构缺乏可以横向比较的基准。

四、谁有权决定一个AI系统「危险到不能发布」?

这是Mythos案例真正重要的问题,也是最难回答的问题。

目前,这个决定权完全在AI公司自身手里。Anthropic的RSP体系、OpenAI的准备就绪评审委员会(Readiness Framework)、Google DeepMind的SafetyCritical AI Policy——这些都是内部机制,由各自公司的员工设计、执行和评估。

这种安排存在一个结构性缺陷:设计分配方案的是受益者。Anthropic从「选择不发布Mythos」这个决定中获得了公关价值——负责任AI公司的形象背书。OpenAI的准备就绪委员会直接向CEO汇报,不向任何独立机构负责。即使公司真的做出了最负责任的决定,外部人士也没有足够的信息验证这一点。

这不是说AI公司的内部安全评估没有价值。有足够证据表明,这些公司的安全团队确实在认真工作。但「认真工作」和「决定权不应该只在自己手里」这两件事并不矛盾。

作为对比,核电站的安全标准由独立的核管制机构(如美国NRC、国际原子能机构IAEA)制定和监督,不由核电公司自己决定,即使核电公司拥有最好的工程师和最真诚的安全意图。药品的临床安全性由FDA等监管机构通过独立审查流程确认,不由制药公司自我认证。

AI能力评估目前缺少这一层机制。EU AI Act(欧盟AI法案)在「高风险AI系统」的监管框架方面迈出了步伐,但对于「前沿模型的危险能力评估」这一具体问题,EU AI Act的要求远不够具体——它要求进行「风险评估」,但没有规定评估方法论、评估主体资质或结果披露标准。

NIST AI Risk Management Framework(人工智能风险管理框架)同样提供了有用的原则,但截至2023年发布的1.0版本,没有针对前沿生成式AI的具体危险能力评估指南。监管框架的成熟度,远落后于AI技术的演进速度。

五、「据报道」背后的信息缺口与写作责任

在写这篇文章的过程中,一个不得不面对的问题是:关于Mythos的核心数据——包括模型规模、具体能力指标、安全阈值的量化标准——几乎全部来自二手媒体报道,缺乏Anthropic的官方技术文档支撑。

Business Insider的报道(2026年4月12日)是目前关于Mythos最主要的信息来源。但Business Insider作为商业媒体,其报道通常来自匿名或半匿名的信源,无法被独立验证。其他报道Mythos的媒体大多引用了相同来源,属于信息的横向扩散而非独立核实。

这导致了一个写作上的真实困境:关于Mythos「社会操纵能力超过安全阈值」的核心叙事,其事实基础是相对薄弱的——我们只知道据报道Anthropic做出了这个决定,但不知道这个决定基于什么具体证据、通过什么流程得出、以及评估结论的可靠性如何。

承认这个信息缺口,比虚假地填充它更重要。读者应该知道:关于Mythos的很多具体描述(「244页System Card」、「10万亿参数」等)来自可信度存疑的来源,不应被视为已确认事实。Anthropic官方目前提供的只有RSP 3.1文件——这个文件确认了能力评估框架的存在,但没有直接提及Mythos。

六、第三层洞察:这一事件改变了什么

无论Mythos的具体技术细节最终如何被厘清,这一事件至少在以下几个维度留下了可测量的影响:

AI公司的责任叙事发生了转变:2023年之前,AI公司的公开叙事通常是「我们在努力让AI更好」。2024年前后,叙事开始转向「我们在努力让AI更安全」。2026年,Mythos事件标志着叙事的第三次转变:「我们造出了我们自己也决定不能用的东西」。这是AI公司第一次公开承认,技术能力的边界已经超出了当前监管和治理的边界。这个承认的政治和法律含义,将在未来数年内持续发酵。

「安全封存」作为行业机制的可能性:如果Mythos事件被验证为真实的安全决策(而非公关操作),它可能开创一个先例:AI公司可以在不将危险能力外泄的前提下,通过「选择不发布」来处理超阈值能力。但这个机制能否持续,取决于行业能否就「谁决定什么是超阈值」建立可信的第三方机制。

监管压力的加速:无论Mythos的细节如何,这一事件已经引发了美国参众两院成员、EU监管机构和英国AI安全研究所的关注。预期在2026年下半年,针对「前沿模型危险能力评估」的具体监管要求将会提上议程。Anthropic的主动公告,在某种程度上是在用透明度换取监管空间——比被监管机构强制披露更主动地掌握叙事节奏。

结语:当AI公司成为自己的监管者

Mythos案例的最终意义,不在于这个模型有多危险,而在于它将一个长期悬而未决的问题带到了公众视野:在独立的能力评估机制建立之前,谁来保证AI公司的自我评估是可信的?

不是说Anthropic的评估不可信。问题是:在缺乏外部验证机制的情况下,「相信Anthropic说的」是唯一的选择——这对于一个声称在制造可能影响整个社会的技术的公司来说,是一个需要被认真对待的治理缺口。

飞机制造商不能自己给自己的飞机颁发适航证书。制药公司不能自己批准自己的新药。AI公司目前实际上在做的,正是这件事。

这不是对AI公司道德水准的质疑——而是对监管框架滞后于技术演进速度的事实陈述,以及对「我们需要在AI能力评估领域建立独立的第三方机制」这一命题的有力论证。

Anthropic用Mythos事件,无意中或有意地,把这个问题推到了聚光灯下。这也许是Mythos即使从未被公开发布,也已经对AI发展产生的最重要影响。

七、「能力评估」方法论的当前最佳实践与缺陷

在结束这篇文章之前,值得花一些篇幅介绍AI能力评估领域目前的「最佳实践」——因为了解现有框架的能力和局限,是判断Mythos案例意义的重要背景。

红队测试(Red-teaming)是目前最广泛使用的能力评估方法。红队由专业的安全研究员组成,他们的任务是主动尝试引发模型的危险行为——就像网络安全领域的渗透测试,只不过目标是AI系统。Anthropic、OpenAI和Google都进行红队测试,但测试的规模、方法论和结论的具体化程度各不相同。

红队测试的局限性是显著的。首先,它的覆盖范围是有限的:即使是最大规模的红队,也只能测试研究员能够想象到的场景,而危险的使用方式往往是研究员没有预料到的组合。其次,它的可重复性不高:不同的红队在同样的模型上可能得出不同的结论,因为测试者的能力、创造力和关注点各异。第三,对于「社会操纵」这类涉及社会科学的能力,红队的有效性尤其难以评估——成功的社会操纵可能需要持续的、针对特定个体的信息积累,而这在实验室环境中很难模拟。

能力阈值测试(Capability Threshold Testing)是RSP框架中明确要求的另一种方法。Anthropic为每个ASL等级定义了必须测试的「能力指标」,如果模型在某个指标上达到阈值,触发相应的保障措施要求。这比纯粹的红队测试更系统,但面临同样的根本挑战:指标本身是谁定义的,基于什么证据,阈值的具体数值是如何校准的?

外部审计是目前实践最少、但可能最重要的机制。英国AI安全研究所(UK AI Safety Institute,现已更名为AI Security Institute)在2024年开始尝试对前沿模型进行独立评估,在模型公开发布之前进行安全审查。美国的对应机构在2026年初刚刚获得国会授权,尚未建立完整的评估能力。

在这个背景下,Mythos案例的一个重要问题是:英国AI安全研究所或任何其他外部机构,是否参与了对Mythos的独立评估?如果没有,为什么?如果有,结论是什么?这些问题的答案,会显著影响我们对「Anthropic决定不发布Mythos」这一决定的可信度判断。

八、「社会操纵能力」的特殊复杂性

「社会操纵」作为AI安全评估的一个维度,比技术性危险能力(如CBRN辅助)更难处理,原因是多方面的。

边界的内在模糊性:一个能够非常有效地「说服」用户的AI,在某些场景下是有价值的(说服用户养成健康习惯、帮助谈判、改善人际沟通),在另一些场景下是危险的(操纵选民、实施诈骗、制造社会分裂)。「说服能力」本身不是危险的,「被用于特定目的的说服能力」才是。

这与CBRN能力有本质区别:一个模型如果能够提供足够具体的生化武器合成指南,无论在什么场景下都是危险的。但一个极具说服力的模型,本质上是一个中性能力,其危险性取决于部署方式和使用者意图。

规模效应的非线性:大语言模型的社会操纵风险与规模的关系是非线性的。单个用户被一个有说服力的AI影响,和数百万用户同时接触一个专门优化的「大规模说服系统」,是质的不同。而这种「规模效应」在标准的实验室评估环境中几乎无法被模拟。

跨文化、跨语言的复杂性:什么构成「社会操纵」在不同文化、不同政治语境中可能有截然不同的答案。一个在美国文化语境下被认为是「合理说服」的话语策略,在另一个国家可能被视为「有害操纵」。能力评估的这一维度几乎没有全球通用的基准。

正是这些复杂性,使得对「Mythos社会操纵能力超出阈值」的外部验证极其困难。这不意味着Anthropic的评估是错误的——它意味着,即使Anthropic愿意发布详细的技术报告,外部专家要独立验证结论也面临巨大的方法论挑战。

九、对投资者和企业客户的实际影响

从更实用的角度,Mythos事件对不同利益相关者的含义是什么?

对Anthropic的投资者:短期内,主动公告「我们造了不能发布的东西」可能引发「Anthropic能力领先」的正面解读,也可能引发「Anthropic有处理危险AI的内部能力但选择不商业化」的复杂情绪。长期看,这一事件实际上有利于Anthropic建立「负责任AI公司」的品牌资产,在监管日趋严格的环境下可能转化为竞争优势。

对企业客户:如果你是依赖Anthropic Claude的企业用户,Mythos事件传递的信号是:Anthropic有内部机制可以检测到某类危险能力,并且愿意为此牺牲商业发布机会。这是一个关于安全文化的正面信号,与「部署在你的客服系统里的AI是否会操纵你的用户」这个实际问题高度相关。

对竞争对手:如果Mythos的「社会操纵能力超阈值」是真实的,它暗示着Anthropic的某些技术方向已经触碰了能力边界。竞争对手(OpenAI、Google DeepMind)可能正在追踪相同的方向——他们是否也在开发类似的能力?他们的安全评估框架是否能够检测到类似的问题?

对监管机构:Mythos事件是2026年最直接的「AI需要外部监管」的论据之一。一家公司选择主动披露危险能力,这次是好事;但如果没有监管要求,下一家公司可能选择静默搁置,没有任何公开披露。监管空白的成本,在这个案例中清晰可见。

十、从核电到AI:「危险技术」的治理路径回顾

在讨论AI能力评估的监管机制时,核能工业的治理演进历程提供了一个有价值的历史参照系——不是类比,而是路径参考。

1950年代,核能技术的治理也面临类似的「内部评估」困境:核电公司和武器研发机构同时是技术拥有者和安全评估者。三里岛(1979年)和切尔诺贝利(1986年)事故之后,全球核安全治理体系完成了向「独立监管」的根本转型——国际原子能机构(IAEA)的权威被大幅强化,国家核监管机构(如美国NRC)获得了对核电运营商真正独立的调查和处罚权。

这个转型不是靠核电公司的自觉完成的,而是靠事故教训和公众压力强制完成的。

AI能力评估领域目前处于核能工业1970年代之前的状态:有内部安全文化,有自我评估机制,但没有真正独立的外部监督。「Mythos选择不发布」是好事,就像1970年代某家核电公司主动选择不运营一个有隐患的机组是好事——但「好公司的好决定」不是可靠的系统性保障,制度机制才是。

Anthropic的RSP体系是目前最完善的AI自我监管框架之一,版本从1.0迭代到3.1的过程,体现了真实的认真程度。但RSP的根本局限性在于:它是Anthropic为自己制定的规则,由Anthropic的员工执行,向Anthropic的管理层汇报。这与IAEA监察员独立进入核电站审查的权力,在性质上是不同的。

2026年是AI治理关键节点。欧盟AI法案的执行机制正在建立,美国AI安全立法正在讨论,英国AI安全研究所正在扩大评估能力。Mythos事件提供了一个完美的案例研究——一个主动公告「我们有能力造出危险东西并选择不发布它」的AI公司,同时也完美地展示了「为什么仅靠AI公司自我评估是不够的」。

这两件事并不矛盾:Anthropic做了对的事,同时,AI治理机制需要进化到不依赖公司做对的事。

结语:Mythos留下的真正遗产

Mythos这个模型从未被公众看到,但它已经留下了影响。

它是第一个主流AI公司公开承认「我们造出了某种我们决定不能发布的东西」的案例,无论这个决定背后的细节如何,这个承认本身就是一个历史性时刻。它使得「AI能力边界」从抽象的讨论变成了具体的事件,迫使政策制定者、企业用户和公众更认真地思考:谁来划定边界,边界在哪里,如何验证边界被遵守。

在一个竞争激烈、「发布速度」往往被视为最重要指标的行业里,选择不发布,本身就是一种姿态。

但真正的考验不是这一次——而是当「选择不发布」的成本更高的时候,AI公司是否还会做出同样的决定。在那一天到来之前,建立一套不依赖公司善意的独立评估机制,是比任何单次决策都更重要的事情。

这是Mythos留给AI治理领域最重要的遗产:不是它的能力,而是它引发的问题,以及它让每个关心AI未来的人都不得不面对的更深层挑战。当AI技术的发展速度已经超越了人类设计治理机制的速度,「造出了不该发布的东西」不是终点,而只是一个开始——它提示我们,那个独立的、可验证的、不依赖任何单一公司善意的AI能力评估机制,已经是一个紧迫的现实需求,而不是遥远的理想。2026年是关键窗口期,这个窗口不会永远开着。历史上,每一个重大技术转型都在「技术能力」和「治理能力」之间存在差距,而缩短这个差距往往需要付出真实的代价。AI领域能否在付出不可逆的代价之前先建立起有效的治理机制,是这个时代最值得持续关注的核心命题之一。


参考资料

  1. Responsible Scaling Policy Updates - Version 3.1 Anthropic Official 2026-04-02 https://www.anthropic.com/responsible-scaling-policy
  2. Frontier Safety Roadmap Anthropic Official 2026-04-02 https://anthropic.com/responsible-scaling-policy/roadmap
  3. Anthropic says its latest AI model is too powerful to be released to the public Business Insider 2026-04-12 https://www.businessinsider.com(据报道,具体细节需独立核实)
  4. GPT-4 Technical Report & System Card OpenAI 2023-03 https://openai.com/research/gpt-4-technical-report(历史对比参考)
  5. EU Artificial Intelligence Act European Commission 2024 https://www.europarl.europa.eu/topics/en/article/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence