2026年6月10日,路透社报道:Anthropic已向美国政府提交建议,敦促强制要求对「最强大的AI模型」进行安全测试。

这不是Anthropic第一次主动走进华盛顿。2026年6月初,包括Anthropic CEO Dario Amodei在内的多位AI领袖,联名写信警告AI在生物武器领域的风险,呼吁政府建立更严格的AI使用管控机制。而这份新的政策建议,把Anthropic的政府游说从「呼吁关注风险」推进到了「要求立法强制测试」的具体行动阶段。

表面上,这是一家AI安全公司的负责任行为。Anthropic一直以「最安全的AI实验室」自居,主动推动监管,与其品牌定位高度一致。

但如果你深挖这件事的逻辑,会发现一幅更复杂、也更有意思的图景。

围绕这一政策主张,目前存在截然不同的两种解读:一种认为这是AI公司在AI治理危机面前的真实担当;另一种认为这是精心设计的竞争策略,用安全的名义限制竞争。两种解读都有各自的逻辑,而真实情况可能两者兼有。

这篇文章的核心论点是:Anthropic的安全关切是真实的,但「真实的安全关切」与「精明的竞争策略」可以完美共存于同一个政策建议中——而理解这种共存,比选择相信其中一面更重要。

这篇文章的目的,不是给Anthropic贴上「英雄」或「阴谋家」的标签——这两种标签都太过简单。真正值得讨论的问题是:在AI监管的宏大叙事背后,各方利益是如何交织、如何冲突、如何最终塑造我们所有人都将生活于其中的AI治理框架的。

「要求监管自己」:历史上最聪明的商业策略之一

主动要求政府监管,听起来是一种利他主义行为。但翻开商业史,你会发现这是一些最精明的企业在竞争中经常使用的策略:让政府帮你设置门槛,把你无法轻松超越的竞争对手挡在门外。

这条规律几乎从未失效:当一家公司主动要求加强监管时,它几乎总是已经准备好了通过那道门槛。

这个策略有个专业名词:「监管捕获」(Regulatory Capture)。但Anthropic的情况可能更接近「主动监管设计」——不是被动地被监管者接近,而是主动参与规则的设计,确保规则与自己的能力和商业利益对齐。

让我们具体分析Anthropic要求强制安全测试的内在逻辑:

谁能通过强制安全测试?

Anthropic的核心竞争力,恰恰是AI安全研究。从Constitutional AI(宪法AI)到可解释性研究,Anthropic在AI安全技术上的投入,在业内首屈一指。如果政府要求对最强大的AI模型进行强制安全测试,Anthropic是最有能力设计这套测试体系的公司之一,也是最有能力通过这套测试的公司之一。

这意味着:强制安全测试门槛越高,对Anthropic越有利。

谁最难通过强制安全测试?

小型AI公司和开源社区。没有充足资源进行系统性安全测试的小公司,将面临合规成本过高的问题,可能被迫退出市场或缩减业务规模。以Meta的Llama系列为例——开源模型一旦被要求通过强制安全测试,Meta需要投入大量资源维护合规,这与开源模型「社区自治」的理念产生根本性冲突。

这进一步意味着:强制安全测试的推行,客观上会减少Anthropic的竞争对手,尤其是那些可能以更低价格提供类似能力的小型竞争者和开源替代方案。

「最强大的AI模型」这一表述很有技巧

这个定义,理论上会包括OpenAI的GPT系列、Google的Gemini Ultra、Meta的Llama最新版本——恰好是Anthropic的直接竞争对手。而Anthropic的Claude系列,作为业界公认的「安全优先」模型,在安全测试中的预期表现,可能优于竞争对手。

更关键的是:谁来界定「最强大」的门槛?如果Anthropic参与了这个定义过程(据公开信息显示,Anthropic已是NIST AI安全框架制定的活跃参与者),门槛的设置可以精确地把最危险的竞争者纳入,把不构成威胁的边缘玩家排除。

这是一个值得注意的结构性规律:用安全的名义推动的监管,客观上往往有利于安全能力领先者的竞争格局——无论推动者的主观动机是否包含这一考量。

历史上最经典的类比是制药行业。在制药领域,推动FDA严格审批标准的,往往是已经拥有庞大临床试验机器的大型制药公司——因为严格审批对他们的影响相对可控,但对缺乏资源的新进入者则是难以逾越的屏障。AI安全测试的逻辑,与此如出一辙。

公平对待:Anthropic的安全关切是真实的

当然,前面的分析不能被理解为「Anthropic的安全关切是虚伪的」。事实更复杂:Anthropic对AI安全的关切,是真实的,同时也恰好对其商业利益有利。这两件事并不矛盾,两者可以同时为真。

Dario Amodei创立Anthropic的核心动机之一,就是对AI安全的真实担忧——他和团队从OpenAI出走的一个重要原因,是认为OpenAI的发展速度超出了安全研究能跟上的节奏。这段历史有详尽的公开记录(包括多家权威媒体的深度报道和Amodei本人的公开演讲),不是事后诸葛的叙事。

Anthropic在可解释性研究(Interpretability)上的投入,在学术界有广泛认可。他们试图真正理解神经网络内部发生了什么——神经元的功能、「特征」(Feature)是如何在网络中编码的、多步骤推理如何被实现——而不只是在表面层面做安全补丁。这不是简单的公关行为,而是实质性的科学工作。发表在顶级学术期刊的Anthropic可解释性团队论文,包括「Scaling Monosemanticity」(2024年发表于transformer-circuits.pub)和「Circuit Analysis」系列,是AI安全研究领域的重要贡献。

当Anthropic说「最强大的AI模型需要强制安全测试」,他们的依据是真实的:未经充分测试的强大AI模型,在被部署于关键基础设施、医疗诊断、金融决策、军事应用等场景时,可能带来难以预料的系统性风险。

真实世界中,AI系统失效已经造成了可记录的损害,这些案例有充分的公开文档支撑:

  • 亚马逊AI招聘工具歧视案(2014-2018年):亚马逊开发了一套机器学习招聘筛选工具,该系统在实际测试中被发现系统性地降低女性候选人的评分。由于该工具基于历史简历数据训练,而历史数据本身反映了科技行业的性别偏差。亚马逊于2018年放弃了该项目(此案例有路透社2018年10月的深度调查报告,原文标题「Amazon scraps secret AI recruiting tool that showed bias against women」,可通过路透社档案查证)。

  • COMPAS量刑算法种族偏见案(2016年):ProPublica 于2016年5月发表调查报告「Machine Bias」,对在美国多个司法管辖区使用的COMPAS量刑风险评估算法进行了系统分析,发现该算法对黑人被告的再犯风险评估显著高于白人被告——在控制其他变量后,黑人被告被错误高估风险的概率约为白人的两倍。这套算法被用于影响保释、量刑和假释决定,直接影响人身自由(ProPublica原始调查报告地址:https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing)。

  • IBM Watson Health癌症治疗建议问题(2018年):《纽约客》及多家医疗媒体报道,MD Anderson癌症中心和多家医院发现IBM Watson for Oncology给出的化疗建议与肿瘤专家的判断存在重大偏差,在某些案例中甚至推荐了被认为「不安全」或「不当」的治疗方案。IBM最终大幅缩减了Watson Health的医疗AI业务(相关报道可追溯至《STAT News》2017年9月的调查「IBM pitched its Watson supercomputer as a revolution in cancer care. It’s nowhere close」)。

这三个案例有一个共同特点:这些AI系统在部署前并未经过严格的独立安全测试,失效后造成的损害(就业歧视、司法不公、错误医疗建议)都是真实的、可量化的。Anthropic援引这类风险来论证强制安全测试的必要性,是有坚实现实基础的。

需要明确指出的是:Anthropic的安全关切是真实的,这一判断并不削弱对其竞争动机的分析。恰恰相反,最有效的监管游说,往往是那些「真实关切」与「商业利益」完美对齐的情况——因为真诚让游说更有说服力。

AI监管的两难困境:保护安全 vs 保护竞争

Anthropic的政策建议,揭示了AI监管领域的一个根本性两难困境。

困境一:门槛设得多高才是对的?

如果强制安全测试门槛太低,只是走走过场,对实际安全没有提升,只增加合规负担,那这套制度就是低效的官僚主义。

如果门槛设得太高,只有少数几家资源最充足的公司能够通过,那会造成AI领域的垄断。今天的大模型竞争,无论是开源社区的Llama、Mistral,还是学术界的研究型模型,都可能在严苛的安全测试要求下被淘汰出局。

这是一个真实的两难:高门槛提高安全,但削减竞争;低门槛维持竞争,但可能放任危险。

对比欧盟的AI Act实施路径可以找到参照:欧盟AI Act(正式编号:Regulation (EU) 2024/1689,于2024年8月1日生效)将AI系统按风险等级分类,对高风险AI(如用于关键基础设施、医疗、执法的系统)设置严格要求,对低风险AI仅要求透明度义务。这种分层监管的思路,试图在安全与创新之间找到平衡,但实践中依然面临「谁来判定高风险」的定义之争。

Anthropic建议的「最强大的AI模型」触发强制测试,本质上是另一种分层策略——但以「能力」而非「用途」作为分层标准。这个选择是否合理,需要进一步讨论。以「能力」为标准的好处是相对客观可量化,坏处是忽略了「用途决定风险」的现实——一个极其强大但仅用于天气预报的模型,与一个中等能力但用于军事决策的模型,谁更需要安全测试?

困境二:谁来设计测试体系?

强制安全测试的核心,是「测试什么」和「如何测试」。如果由政府机构设计测试体系,他们可能缺乏足够的技术理解;如果由AI公司参与设计,又面临「运动员兼裁判员」的利益冲突问题。

Anthropic已经是美国政府AI咨询的重要参与者。在国会听证、白宫AI峰会、NIST AI安全框架制定等场合,Anthropic的代表多次发声(这些参与记录在NIST官方网站和国会听证记录中可查)。这意味着他们有相当大的机会参与「测试体系」的设计——这既是一种贡献,也是一种潜在的利益输送渠道。

一个可能的解决方案,是建立独立的第三方AI安全评估机构,类似于金融领域的信用评级机构,或者医疗领域的FDA审批机制。但这类机构的建立本身就是一个漫长的政治过程,而且历史证明,这类机构最终往往也会被它所监管的行业所捕获——标准普尔和穆迪在2008年金融危机中的角色就是明证。

困境三:「最强大」的定义是一条不断移动的线

今天被认为「最强大」的模型,是各家旗舰级产品(OpenAI的最新GPT系列、Anthropic的Claude最新版、Google的Gemini Ultra系列)。但一年后,今天的「最强大」可能已经是「主流」,而新一代的「最强大」会出现。

强制安全测试的体系,必须能够随着技术进步动态调整,否则很快就会变成只针对今天的竞争者的贸易壁垒,而不是真正保护公众安全的机制。

更棘手的是:如何量化「最强大」?是以参数量?是以基准测试分数?是以实际应用能力?每种量化方式都有可以被操纵的空间,而且每种量化方式背后的定义权,都是一块巨大的利益蛋糕。

还有一个经常被忽视的技术挑战:AI系统的「涌现能力」(Emergent Capabilities)。研究发现,大型模型在训练规模超过某个阈值后,会突然「解锁」之前不具备的能力——比如多步数学推理、代码理解、跨语言迁移等(这一现象在Google Research 2022年发表的「Emergent Abilities of Large Language Models」论文中有系统性记录)。这意味着即使对当前的「最强模型」进行了全面安全测试,测试结论也可能无法预测下一代模型在相似规模下的行为。安全测试不是一次性的证书,而是需要随模型持续迭代的动态流程。

前车之鉴:安全监管如何塑造了其他行业

在讨论AI安全测试体系的设计时,回顾其他行业的监管史,能给我们很多有价值的启示。

金融行业:2008年金融危机后,美国出台了《多德-弗兰克法案》(Dodd-Frank Act),对大型金融机构提出了更严格的资本充足率、压力测试和合规要求。这套监管体系的结果是:大型银行的市场份额进一步集中(据FDIC年度银行报告,2023年美国前5大银行资产占比较2007年明显提升,完整数据可查FDIC官网:https://www.fdic.gov/bank/statistical/),系统性风险确实降低了,但金融创新的空间也被压缩了。AI安全测试可能重蹈这个路径:降低最大模型的风险,但同时强化了头部集中。

制药行业:FDA的新药审批体系,是全球最严格的安全监管框架之一。正因如此,美国的创新药公司能够获得比其他市场更高的溢价和更长的专利保护期——安全监管和商业利益紧密绑定。但代价是:审批周期长、成本高(据Tufts药物开发研究中心估算,一款新药平均需要10-15年、超过10亿美元的投入才能上市),创新节奏受到制约。AI安全测试的设计者,需要认真思考:如何避免FDA模式的低效,同时实现FDA模式的安全价值?

航空行业:美国联邦航空管理局(FAA)的飞机适航认证体系,是「行业参与立规」最典型的案例之一。波音、空客等大型飞机制造商深度参与FAA的技术标准制定,这既产生了高效的协作,也埋下了监管失效的隐患(波音737 MAX事故部分源于FAA与波音之间的利益捆绑——FAA将部分安全认证权限委托给波音自身的工程师,这一做法在事故后被广泛批评)。这个教训提醒我们:当AI公司深度参与AI安全测试体系的设计时,独立性机制的建立至关重要。

这三个行业案例指向同一个结论:监管体系的设计,决定了监管的实际效果。好的设计可以同时实现安全和创新;坏的设计会导致安全与竞争的双输。AI安全测试的最大挑战,不是「要不要做」,而是「如何做」。

竞争格局:主要AI公司的不同立场

Anthropic的立场是「支持强制安全测试」,但其他主要AI公司的立场呢?

OpenAI:态度相对矛盾。一方面,Sam Altman多次在公开场合表达对AI安全的重视,甚至主动与美国国会、欧盟监管机构沟通;另一方面,OpenAI在旗舰模型的发布节奏上,明显比Anthropic更激进。OpenAI的立场可以概括为:「支持监管,但不要阻碍我们的节奏」。值得注意的是,OpenAI近年来的组织架构调整(从非营利主体到营利性实体的转型)也表明其商业优先级在上升。

Google/DeepMind:Google是欧盟AI Act的主要游说对象之一,据公开的欧盟透明度登记册(EU Transparency Register)记录,Google在过去两年花费了大量资源影响欧盟立法。Google的倾向是:「支持行业自律框架,反对强制第三方测试」——因为Google更希望自己控制评估标准和节奏,而不是被外部审查。

Meta:Meta是开源AI的主要倡导者,推出了Llama系列开放权重模型。强制安全测试对Meta的影响最为直接——如果测试要求适用于「最强大的AI模型」,Llama 4、Llama 5这类大型开放权重模型是否需要合规?Meta坚决反对,认为开源模型的测试应由社区而非政府负责。Meta首席AI科学家Yann LeCun多次在公开场合(包括社交媒体和学术会议)表达了对过度监管开源AI的反对立场。

中国AI公司:百度、阿里、腾讯等中国AI公司在美国监管游说中基本缺席,一方面是因为他们的业务主要在中国,另一方面也因为美国政府对中国AI公司的监管讨论,更多是出于地缘政治考量而非技术评估。

这个竞争格局说明,Anthropic的政策建议并不代表整个行业的共识。在监管讨论中,不同公司的利益诉求相互冲突,最终的立法结果将是各方博弈的产物。

地缘政治底色:中美AI竞争的隐含变量

在理解Anthropic的政策建议时,不能忽视一个重要的地缘政治背景:中美AI竞争。

美国面临一个真实的战略困境:过于严格的AI监管会放慢美国AI发展速度,在与中国的竞争中落后;但完全不监管,又面临国内安全风险和公众信任危机。这个张力,在当前美国政府的AI政策中体现得尤为明显——一方面强调美国AI领导力,另一方面又无法完全忽视安全关切。

Anthropic的建议,在这个张力中提出,有其独特的政治时机。「强制安全测试最强大的AI模型」,表面上是安全要求,实质上也可能成为一种筛选机制:拥有足够研发能力和合规资源的美国大公司,可以通过测试;中国AI公司想要进入美国市场,就必须接受美国政府的安全审查。

这可能是被政府最容易接受的AI监管方案之一:既能声称「保护公众安全」,又能构建对中国AI进入美国市场的实质性壁垒,同时不会被美国国内AI大公司强烈反对(因为大公司都能通过,受影响的主要是中小公司和开源社区)。

需要指出的是,上述关于地缘政治动机的分析属于基于公开政策逻辑的推测——目前没有公开证据表明Anthropic的政策建议明确以限制中国AI公司为目标。但这种「安全名义下的贸易壁垒」模式在美国政策工具箱中有充分先例。

这种监管设计,在历史上有先例。美国对半导体出口的限制(2022年10月实施的对华芯片出口管制)、对电信设备的安全审查(华为被列入实体清单的案例),都是通过「安全」名义实施的贸易和技术政策工具。AI安全测试,可能成为同类工具集的最新成员。

值得一提的是,欧盟AI Act已经走在美国前面。2024年正式生效的欧盟AI Act,对高风险AI系统设置了强制评估要求。美国如果选择推进类似立法,既有现成的框架可以参考,也有来自欧洲的压力——因为任何在欧洲运营的AI系统都需要符合欧盟规则,美国公司需要接受双重监管。Anthropic的建议,可能在某种程度上也是推动美国建立「本土化」安全标准,而不是完全被欧盟标准所定义。

Anthropic的角色定位:安全布道者还是规则制定者?

Anthropic把自己定位为AI安全的布道者——一家愿意放慢脚步、认真思考安全风险的公司,而不是以最快速度推出最强大模型的竞争者。

这个定位,赋予了Anthropic在政策对话中独特的声誉资本。当Anthropic说「某类AI应该被强制测试」,比OpenAI或Google说同样的话更有说服力——因为前者被认为更少受到商业利益驱动。

但这个定位也是一把双刃剑:

有利的一面:Anthropic的安全优先定位,让它赢得了企业客户中最保守的那批——金融机构、政府机构、医疗机构,这些对安全要求最高、付费能力最强的客户。根据Ramp AI Index 2026年5月报告(基于50,000+美国企业的支出数据),Anthropic的企业采购份额已经超过OpenAI(34.4% vs 32.3%)。在高价值的企业客户市场,「最安全」的声誉是最有力的销售工具。

困难的一面:「安全优先」的代价是「快速迭代让步」。在模型能力的追赶上,Anthropic面临两难:做得太快,违背安全理念;做得太慢,可能在能力上输给竞争对手。这不是假设性的风险——2025年至2026年间,当OpenAI和Google先后发布新一代大型语言模型时,Anthropic都需要在「快速跟进」和「安全验证」之间做出艰难选择。

主动推动政府监管,是Anthropic把这个两难从单纯的内部战略选择,升级为行业游戏规则的尝试:如果整个行业都必须接受安全测试,Anthropic的「安全优先」选择就不再是竞争劣势,而是合规领先优势。

用一句话概括这个逻辑:Anthropic正在尝试把自己的内部约束,变成所有人的外部约束。这是将自身的道德选择转化为行业结构性优势的最高级策略。

这个逻辑,与当年欧洲汽车厂商积极推动欧盟严格排放标准的商业逻辑如出一辙:当你的产品在环保方面本来就领先,推动严格的环保标准是最聪明的竞争策略。同样,当美国几家大型科技企业推动数据隐私法规时(比如部分科技公司对GDPR的态度),部分原因也是因为合规成本对已经建立合规体系的大公司影响较小,但对初创公司和小型竞争对手则是沉重负担。

还有一个值得思考的角度:Anthropic的政策建议如何影响其融资前景?Anthropic已经完成了多轮大型融资,投资方包括Google、Amazon等战略投资者,以及Spark Capital、General Catalyst等风险投资机构。这些投资者对AI监管的态度,可能通过董事会层面对Anthropic的政策立场产生间接影响(需要说明的是,这一推测基于一般性的公司治理逻辑,目前没有公开证据表明特定投资者直接干预了Anthropic的政策建议内容)。

Google是Anthropic的最大战略投资者之一(据公开报道,Google对Anthropic的累计投资超过20亿美元)。Google自身在欧盟AI法规的制定过程中,有着复杂的游说立场——既担心过严的监管限制自身业务,也希望规则能够保护其市场地位。这层投资关系使整个监管讨论的利益结构变得更加复杂,尽管我们不应在没有直接证据的情况下断言存在具体的影响传导。

真正独立的AI安全建议,需要来自没有直接商业利益的第三方:学术机构、公民社会组织、独立的技术安全研究人员。他们的声音,在政策讨论中往往不如行业巨头响亮,但代表着更真实的公共利益视角。

对不同读者的行动启示

这篇分析对不同角色的读者有不同的实际意义:

对投资者:Anthropic的监管游说策略,如果成功,将显著提升AI安全合规服务的市场价值。投资组合中应关注两类标的——一是已建立安全合规能力的头部AI公司(它们将受益于高门槛),二是第三方AI安全评估和审计服务商(这是一个正在形成的新市场)。同时需警惕:如果监管过严导致AI创新放缓,整个AI板块的增长预期可能需要下调。

对AI从业者和创业者:无论最终立法如何,「安全合规能力」正在从可选项变为必选项。中小型AI公司应尽早投入安全测试基础设施建设,或与第三方安全评估机构建立合作关系。等到法规正式落地再行动,可能为时已晚。开源社区需要探索「社区驱动的安全评估」新模式,以证明非政府强制的安全机制也能有效运作。

对政策制定者:Anthropic的建议有其合理内核(强大AI确实需要安全评估),但在采纳时需要建立利益冲突防火墙。具体建议包括:(1)测试标准的制定过程应包含独立学术机构和公民社会代表,而非仅依赖行业输入;(2)考虑为中小企业设置合规成本补贴或分级合规路径;(3)对开源模型建立专门的评估框架,避免用闭源模型标准直接套用。

面对一个快速演进的技术领域,政策制定者最需要的不是「永久正确的答案」,而是能够「快速迭代的监管机制」——与AI技术同步进化,而非试图一次性定义一个永恒标准。


参考资料

  1. Reuters (2026-06-10): “Anthropic urges US to require safety tests for most capable AI models” — https://www.reuters.com/world/anthropic-urges-us-require-safety-tests-most-capable-ai-models-2026-06-10/
  2. Ramp AI Index (2026年5月): 企业AI工具采购份额数据,Anthropic 34.4% vs OpenAI 32.3% — https://ramp.com/blog/ai-adoption-index
  3. EU AI Act官方文本: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32024R1689
  4. NIST AI Risk Management Framework 1.0: https://www.nist.gov/system/files/documents/2023/01/26/AI-RMF-1.0.pdf
  5. Anthropic Interpretability Research (Scaling Monosemanticity): https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
  6. Forbes (2026-06-09): Anthropic enterprise adoption data — https://www.forbes.com/sites/sandycarter/2026/06/09/anthropic-launches-mythos-with-six-features-you-absolutely-need/