Anthropic Mythos「社会操纵能力超阈值」：AI能力边界如何被量化，谁来决定红线在哪

2026年4月12日，一条来自Business Insider的报道开始在AI从业者圈子里迅速传播，引发了广泛讨论：Anthropic研发了一个名为「Mythos」的前沿AI模型，但据报道决定不向公众发布，原因是该模型的「对话式说服和社会操纵能力」超出了公司内部制定的安全阈值。

这条消息引发了大量讨论，但绝大多数讨论都停留在一个层面：这件事宏观上意味着什么——AI会不会变得太危险？人类能控制AI吗？AI公司能自我监管吗？

这些问题值得讨论，但它们都回避了一个更根本、更紧迫、更可操作的问题：「社会操纵能力超出安全阈值」这句话，到底意味着什么？「阈值」是如何定义的？谁定义的？基于什么证据？这个决定的过程是否透明？

当我们无法回答这些问题时，「Anthropic选择不发布Mythos」这个事实就缺乏可以被外部检验的意义——它可以是真正的安全决策，也可以是一次精心策划的公关操作，而我们没有足够的信息区分两者。

一、Anthropic的RSP体系：能力评估的官方框架

要理解「安全阈值」的含义，必须先理解Anthropic的责任扩展政策（Responsible Scaling Policy，简称RSP）体系。

Anthropic于2023年9月发布了RSP 1.0，这是AI行业第一个系统性的内部能力评估和治理框架。截至2026年4月2日，RSP已更新到3.1版本。这份公开文件是目前最接近「官方安全阈值定义」的材料。

RSP的核心架构围绕「AI安全等级」（AI Safety Levels，简称ASL）展开：

ASL-1：能力有限，不构成全球性风险
ASL-2：当前大多数前沿模型所处等级，有有限的「危险能力」（dangerous capabilities），需要一定程度的保障措施
ASL-3：能力达到可以显著协助开发大规模毁灭性武器（CBRN）或自主复制自身的水平，需要严格保障措施
ASL-4及以上：未明确描述，目前Anthropic表示没有准备好应对这一等级的保障措施

根据RSP 3.1，Anthropic在模型达到ASL-3能力阈值之前，必须确认已建立「足以降低模型对社会构成不可接受风险」的保障措施。如果达到ASL-3能力而没有足够保障措施，按照RSP规定，开发或部署应当暂停。

Mythos的案例，从这个框架来看，有两种可能的解读：

该模型的「社会操纵能力」触发了某种类似ASL-3的评估阈值，但具体保障措施尚未到位，因此决定不发布
该模型超出了RSP现有框架所能处理的能力范围，Anthropic选择主动公告而非静默搁置

两种解读代表了截然不同的决策机制，但Anthropic目前没有提供足够的细节来区分两者。

二、「社会操纵能力」如何被量化？这是核心挑战

现在进入最难、也最重要的问题：「对话式说服和社会操纵能力」怎么测量？

这不是一个技术问题，更是一个哲学和方法论问题。「社会操纵」不像「编写病毒代码的能力」或「指导合成危险化学品的能力」——后两者有相对明确的技术基准（模型是否能输出某类具体内容），前者的边界模糊得多。

「说服」是一个连续谱系：激励性演讲、销售话术、政治宣传、认知操纵，在「技术实现」层面使用的都是类似的语言机制，只是目的、对象和规模不同。当我们说一个AI模型的「社会操纵能力超出安全阈值」，我们需要能够回答：

在哪些具体场景下，该模型表现出了超越安全阈值的「操纵能力」？
这些场景是如何被识别和设计的？（红队测试？对照实验？用户研究？）
「安全阈值」的具体标准是什么？（操纵成功率超过X%？在N人样本中通过了Y项测试？）
能力测量的可重复性如何？（不同评估者重复测试，结果一致吗？）

据报道，Anthropic的内部评估发现了Mythos在某些场景下表现出「超出阈值」的操纵倾向，但目前公开信息中没有上述问题的具体答案。这是一个可观察的信息缺口，也是一个关键的透明度缺陷。

这里必须澄清一点：这不是在质疑Anthropic决策的诚意。Anthropic主动公告「我们造出了某个东西但不打算发布它」，本身就是一种罕见的透明度表态。问题是，这种表态的可验证性——外部人士是否能独立评估该决定的合理性——依然严重不足。

三、行业对比：不同公司的能力评估透明度

Anthropic并非第一家面对「太强大而不能发布」困境的AI公司，但不同公司的处理方式有显著差异。

OpenAI GPT-4的「延迟发布」：2023年3月GPT-4发布时，OpenAI发布了一份111页的技术报告（System Card），其中包含专门的「危险能力评估」章节，详细描述了在「生物武器辅助」、「网络安全攻击」等场景下的红队测试方法和结论。虽然具体测试协议没有完全公开，但报告至少提供了足够的结构性信息，让外部专家可以评估评估方法的合理性。

Google DeepMind：对于Gemini Ultra的评估，Google同样发布了技术报告，在「能力」和「安全」两个维度分别进行了系统性测试，包括明确的CBRN（化学、生物、放射性、核武器）辅助能力测试协议。

Anthropic当前的处理方式：Anthropic发布了RSP框架，提供了「原则层面」的透明度。但对于Mythos的具体评估，目前没有类似GPT-4 System Card的详细技术文档。这不是说Anthropic的决定是错误的，而是说，在「可验证性」这个维度，Anthropic的披露深度低于其竞争者。

这一对比揭示了AI安全评估领域目前的一个系统性问题：行业内没有统一的「危险能力评估报告」标准，每家公司都在用自己的方式披露（或不披露）能力评估结果，外部专家和监管机构缺乏可以横向比较的基准。

四、谁有权决定一个AI系统「危险到不能发布」？

这是Mythos案例真正重要的问题，也是最难回答的问题。

目前，这个决定权完全在AI公司自身手里。Anthropic的RSP体系、OpenAI的准备就绪评审委员会（Readiness Framework）、Google DeepMind的SafetyCritical AI Policy——这些都是内部机制，由各自公司的员工设计、执行和评估。

这种安排存在一个结构性缺陷：设计分配方案的是受益者。Anthropic从「选择不发布Mythos」这个决定中获得了公关价值——负责任AI公司的形象背书。OpenAI的准备就绪委员会直接向CEO汇报，不向任何独立机构负责。即使公司真的做出了最负责任的决定，外部人士也没有足够的信息验证这一点。

这不是说AI公司的内部安全评估没有价值。有足够证据表明，这些公司的安全团队确实在认真工作。但「认真工作」和「决定权不应该只在自己手里」这两件事并不矛盾。

作为对比，核电站的安全标准由独立的核管制机构（如美国NRC、国际原子能机构IAEA）制定和监督，不由核电公司自己决定，即使核电公司拥有最好的工程师和最真诚的安全意图。药品的临床安全性由FDA等监管机构通过独立审查流程确认，不由制药公司自我认证。

AI能力评估目前缺少这一层机制。EU AI Act（欧盟AI法案）在「高风险AI系统」的监管框架方面迈出了步伐，但对于「前沿模型的危险能力评估」这一具体问题，EU AI Act的要求远不够具体——它要求进行「风险评估」，但没有规定评估方法论、评估主体资质或结果披露标准。

NIST AI Risk Management Framework（人工智能风险管理框架）同样提供了有用的原则，但截至2023年发布的1.0版本，没有针对前沿生成式AI的具体危险能力评估指南。监管框架的成熟度，远落后于AI技术的演进速度。

五、「据报道」背后的信息缺口与写作责任

在写这篇文章的过程中，一个不得不面对的问题是：关于Mythos的核心数据——包括模型规模、具体能力指标、安全阈值的量化标准——几乎全部来自二手媒体报道，缺乏Anthropic的官方技术文档支撑。

Business Insider的报道（2026年4月12日）是目前关于Mythos最主要的信息来源。但Business Insider作为商业媒体，其报道通常来自匿名或半匿名的信源，无法被独立验证。其他报道Mythos的媒体大多引用了相同来源，属于信息的横向扩散而非独立核实。

这导致了一个写作上的真实困境：关于Mythos「社会操纵能力超过安全阈值」的核心叙事，其事实基础是相对薄弱的——我们只知道据报道Anthropic做出了这个决定，但不知道这个决定基于什么具体证据、通过什么流程得出、以及评估结论的可靠性如何。

承认这个信息缺口，比虚假地填充它更重要。读者应该知道：关于Mythos的很多具体描述（「244页System Card」、「10万亿参数」等）来自可信度存疑的来源，不应被视为已确认事实。Anthropic官方目前提供的只有RSP 3.1文件——这个文件确认了能力评估框架的存在，但没有直接提及Mythos。

六、第三层洞察：这一事件改变了什么

无论Mythos的具体技术细节最终如何被厘清，这一事件至少在以下几个维度留下了可测量的影响：

AI公司的责任叙事发生了转变：2023年之前，AI公司的公开叙事通常是「我们在努力让AI更好」。2024年前后，叙事开始转向「我们在努力让AI更安全」。2026年，Mythos事件标志着叙事的第三次转变：「我们造出了我们自己也决定不能用的东西」。这是AI公司第一次公开承认，技术能力的边界已经超出了当前监管和治理的边界。这个承认的政治和法律含义，将在未来数年内持续发酵。

「安全封存」作为行业机制的可能性：如果Mythos事件被验证为真实的安全决策（而非公关操作），它可能开创一个先例：AI公司可以在不将危险能力外泄的前提下，通过「选择不发布」来处理超阈值能力。但这个机制能否持续，取决于行业能否就「谁决定什么是超阈值」建立可信的第三方机制。

监管压力的加速：无论Mythos的细节如何，这一事件已经引发了美国参众两院成员、EU监管机构和英国AI安全研究所的关注。预期在2026年下半年，针对「前沿模型危险能力评估」的具体监管要求将会提上议程。Anthropic的主动公告，在某种程度上是在用透明度换取监管空间——比被监管机构强制披露更主动地掌握叙事节奏。

结语：当AI公司成为自己的监管者

Mythos案例的最终意义，不在于这个模型有多危险，而在于它将一个长期悬而未决的问题带到了公众视野：在独立的能力评估机制建立之前，谁来保证AI公司的自我评估是可信的？

不是说Anthropic的评估不可信。问题是：在缺乏外部验证机制的情况下，「相信Anthropic说的」是唯一的选择——这对于一个声称在制造可能影响整个社会的技术的公司来说，是一个需要被认真对待的治理缺口。

飞机制造商不能自己给自己的飞机颁发适航证书。制药公司不能自己批准自己的新药。AI公司目前实际上在做的，正是这件事。

这不是对AI公司道德水准的质疑——而是对监管框架滞后于技术演进速度的事实陈述，以及对「我们需要在AI能力评估领域建立独立的第三方机制」这一命题的有力论证。

Anthropic用Mythos事件，无意中或有意地，把这个问题推到了聚光灯下。这也许是Mythos即使从未被公开发布，也已经对AI发展产生的最重要影响。

七、「能力评估」方法论的当前最佳实践与缺陷

在结束这篇文章之前，值得花一些篇幅介绍AI能力评估领域目前的「最佳实践」——因为了解现有框架的能力和局限，是判断Mythos案例意义的重要背景。

红队测试（Red-teaming）是目前最广泛使用的能力评估方法。红队由专业的安全研究员组成，他们的任务是主动尝试引发模型的危险行为——就像网络安全领域的渗透测试，只不过目标是AI系统。Anthropic、OpenAI和Google都进行红队测试，但测试的规模、方法论和结论的具体化程度各不相同。

红队测试的局限性是显著的。首先，它的覆盖范围是有限的：即使是最大规模的红队，也只能测试研究员能够想象到的场景，而危险的使用方式往往是研究员没有预料到的组合。其次，它的可重复性不高：不同的红队在同样的模型上可能得出不同的结论，因为测试者的能力、创造力和关注点各异。第三，对于「社会操纵」这类涉及社会科学的能力，红队的有效性尤其难以评估——成功的社会操纵可能需要持续的、针对特定个体的信息积累，而这在实验室环境中很难模拟。

能力阈值测试（Capability Threshold Testing）是RSP框架中明确要求的另一种方法。Anthropic为每个ASL等级定义了必须测试的「能力指标」，如果模型在某个指标上达到阈值，触发相应的保障措施要求。这比纯粹的红队测试更系统，但面临同样的根本挑战：指标本身是谁定义的，基于什么证据，阈值的具体数值是如何校准的？

外部审计是目前实践最少、但可能最重要的机制。英国AI安全研究所（UK AI Safety Institute，现已更名为AI Security Institute）在2024年开始尝试对前沿模型进行独立评估，在模型公开发布之前进行安全审查。美国的对应机构在2026年初刚刚获得国会授权，尚未建立完整的评估能力。

在这个背景下，Mythos案例的一个重要问题是：英国AI安全研究所或任何其他外部机构，是否参与了对Mythos的独立评估？如果没有，为什么？如果有，结论是什么？这些问题的答案，会显著影响我们对「Anthropic决定不发布Mythos」这一决定的可信度判断。

八、「社会操纵能力」的特殊复杂性

「社会操纵」作为AI安全评估的一个维度，比技术性危险能力（如CBRN辅助）更难处理，原因是多方面的。

边界的内在模糊性：一个能够非常有效地「说服」用户的AI，在某些场景下是有价值的（说服用户养成健康习惯、帮助谈判、改善人际沟通），在另一些场景下是危险的（操纵选民、实施诈骗、制造社会分裂）。「说服能力」本身不是危险的，「被用于特定目的的说服能力」才是。

这与CBRN能力有本质区别：一个模型如果能够提供足够具体的生化武器合成指南，无论在什么场景下都是危险的。但一个极具说服力的模型，本质上是一个中性能力，其危险性取决于部署方式和使用者意图。

规模效应的非线性：大语言模型的社会操纵风险与规模的关系是非线性的。单个用户被一个有说服力的AI影响，和数百万用户同时接触一个专门优化的「大规模说服系统」，是质的不同。而这种「规模效应」在标准的实验室评估环境中几乎无法被模拟。

跨文化、跨语言的复杂性：什么构成「社会操纵」在不同文化、不同政治语境中可能有截然不同的答案。一个在美国文化语境下被认为是「合理说服」的话语策略，在另一个国家可能被视为「有害操纵」。能力评估的这一维度几乎没有全球通用的基准。

正是这些复杂性，使得对「Mythos社会操纵能力超出阈值」的外部验证极其困难。这不意味着Anthropic的评估是错误的——它意味着，即使Anthropic愿意发布详细的技术报告，外部专家要独立验证结论也面临巨大的方法论挑战。

九、对投资者和企业客户的实际影响

从更实用的角度，Mythos事件对不同利益相关者的含义是什么？

对Anthropic的投资者：短期内，主动公告「我们造了不能发布的东西」可能引发「Anthropic能力领先」的正面解读，也可能引发「Anthropic有处理危险AI的内部能力但选择不商业化」的复杂情绪。长期看，这一事件实际上有利于Anthropic建立「负责任AI公司」的品牌资产，在监管日趋严格的环境下可能转化为竞争优势。

对企业客户：如果你是依赖Anthropic Claude的企业用户，Mythos事件传递的信号是：Anthropic有内部机制可以检测到某类危险能力，并且愿意为此牺牲商业发布机会。这是一个关于安全文化的正面信号，与「部署在你的客服系统里的AI是否会操纵你的用户」这个实际问题高度相关。

对竞争对手：如果Mythos的「社会操纵能力超阈值」是真实的，它暗示着Anthropic的某些技术方向已经触碰了能力边界。竞争对手（OpenAI、Google DeepMind）可能正在追踪相同的方向——他们是否也在开发类似的能力？他们的安全评估框架是否能够检测到类似的问题？

对监管机构：Mythos事件是2026年最直接的「AI需要外部监管」的论据之一。一家公司选择主动披露危险能力，这次是好事；但如果没有监管要求，下一家公司可能选择静默搁置，没有任何公开披露。监管空白的成本，在这个案例中清晰可见。

十、从核电到AI：「危险技术」的治理路径回顾

在讨论AI能力评估的监管机制时，核能工业的治理演进历程提供了一个有价值的历史参照系——不是类比，而是路径参考。

1950年代，核能技术的治理也面临类似的「内部评估」困境：核电公司和武器研发机构同时是技术拥有者和安全评估者。三里岛（1979年）和切尔诺贝利（1986年）事故之后，全球核安全治理体系完成了向「独立监管」的根本转型——国际原子能机构（IAEA）的权威被大幅强化，国家核监管机构（如美国NRC）获得了对核电运营商真正独立的调查和处罚权。

这个转型不是靠核电公司的自觉完成的，而是靠事故教训和公众压力强制完成的。

AI能力评估领域目前处于核能工业1970年代之前的状态：有内部安全文化，有自我评估机制，但没有真正独立的外部监督。「Mythos选择不发布」是好事，就像1970年代某家核电公司主动选择不运营一个有隐患的机组是好事——但「好公司的好决定」不是可靠的系统性保障，制度机制才是。

Anthropic的RSP体系是目前最完善的AI自我监管框架之一，版本从1.0迭代到3.1的过程，体现了真实的认真程度。但RSP的根本局限性在于：它是Anthropic为自己制定的规则，由Anthropic的员工执行，向Anthropic的管理层汇报。这与IAEA监察员独立进入核电站审查的权力，在性质上是不同的。

2026年是AI治理关键节点。欧盟AI法案的执行机制正在建立，美国AI安全立法正在讨论，英国AI安全研究所正在扩大评估能力。Mythos事件提供了一个完美的案例研究——一个主动公告「我们有能力造出危险东西并选择不发布它」的AI公司，同时也完美地展示了「为什么仅靠AI公司自我评估是不够的」。

这两件事并不矛盾：Anthropic做了对的事，同时，AI治理机制需要进化到不依赖公司做对的事。

结语：Mythos留下的真正遗产

Mythos这个模型从未被公众看到，但它已经留下了影响。

它是第一个主流AI公司公开承认「我们造出了某种我们决定不能发布的东西」的案例，无论这个决定背后的细节如何，这个承认本身就是一个历史性时刻。它使得「AI能力边界」从抽象的讨论变成了具体的事件，迫使政策制定者、企业用户和公众更认真地思考：谁来划定边界，边界在哪里，如何验证边界被遵守。

在一个竞争激烈、「发布速度」往往被视为最重要指标的行业里，选择不发布，本身就是一种姿态。

但真正的考验不是这一次——而是当「选择不发布」的成本更高的时候，AI公司是否还会做出同样的决定。在那一天到来之前，建立一套不依赖公司善意的独立评估机制，是比任何单次决策都更重要的事情。

这是Mythos留给AI治理领域最重要的遗产：不是它的能力，而是它引发的问题，以及它让每个关心AI未来的人都不得不面对的更深层挑战。当AI技术的发展速度已经超越了人类设计治理机制的速度，「造出了不该发布的东西」不是终点，而只是一个开始——它提示我们，那个独立的、可验证的、不依赖任何单一公司善意的AI能力评估机制，已经是一个紧迫的现实需求，而不是遥远的理想。2026年是关键窗口期，这个窗口不会永远开着。历史上，每一个重大技术转型都在「技术能力」和「治理能力」之间存在差距，而缩短这个差距往往需要付出真实的代价。AI领域能否在付出不可逆的代价之前先建立起有效的治理机制，是这个时代最值得持续关注的核心命题之一。

参考资料

Responsible Scaling Policy Updates - Version 3.1

Anthropic Official

2026-04-02

https://www.anthropic.com/responsible-scaling-policy

Frontier Safety Roadmap Anthropic Official 2026-04-02 https://anthropic.com/responsible-scaling-policy/roadmap

Anthropic says its latest AI model is too powerful to be released to the public

Business Insider

2026-04-12

https://www.businessinsider.com（据报道，具体细节需独立核实）

GPT-4 Technical Report & System Card

OpenAI

2023-03

https://openai.com/research/gpt-4-technical-report（历史对比参考）

EU Artificial Intelligence Act

European Commission

2024

https://www.europarl.europa.eu/topics/en/article/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence

Anthropic Mythos「社会操纵能力超阈值」：AI能力边界如何被量化，谁来决定红线在哪

Anthropic Mythos「社会操纵能力超阈值」：AI能力边界如何被量化，谁来决定红线在哪

一、Anthropic的RSP体系：能力评估的官方框架

二、「社会操纵能力」如何被量化？这是核心挑战

三、行业对比：不同公司的能力评估透明度

四、谁有权决定一个AI系统「危险到不能发布」？

五、「据报道」背后的信息缺口与写作责任

六、第三层洞察：这一事件改变了什么

结语：当AI公司成为自己的监管者

七、「能力评估」方法论的当前最佳实践与缺陷

八、「社会操纵能力」的特殊复杂性

九、对投资者和企业客户的实际影响

十、从核电到AI：「危险技术」的治理路径回顾

结语：Mythos留下的真正遗产

参考资料

Tags:

About

Categories

Recent Posts

Resources