当AI最强武器遭遇最脆弱的链条：Anthropic Mythos泄露事件的安全悖论

2026年4月7日，Anthropic CEO Dario Amodei在X平台上写下一句话：”如果我们做对了，有机会创建一个比AI出现前更安全的互联网和世界。”

14天后的4月21日，Bloomberg报道：一个未授权群体通过Anthropic的第三方供应商访问权限，成功进入了Claude Mythos Preview的运行环境。他们提供了截图和现场演示作为证据。

这个时间差里，发生了什么？

一件事的两个面孔

2026年4月21日对Anthropic而言是个奇怪的矛盾体。

上午，Trump在CNBC的Squawk Box节目中表示，与Anthropic的国防部合作协议”是可能的”。这是过去3个月里双方最积极的公开表态——就在3月，五角大楼还将Anthropic列为”供应链风险”，要求国防承包商认证不使用Claude。Trump本人曾在Truth Social发帖，要求联邦机构”立即停止”使用Anthropic技术，这道令目前已被联邦法官临时阻止。

这一切的转折点，是Anthropic CEO Dario Amodei上周五亲赴白宫，与白宫幕僚长Susie Wiles、财政部长Scott Bessent讨论Mythos模型。会议被描述为”富有成效和建设性的”（来源：CNBC，2026-04-21）。

就在Trump发表积极评价的同一天，Bloomberg的另一篇报道发出：Mythos已被未授权群体访问。

同一天。同一个模型。截然相反的叙事方向。

这不是一个可以轻易忽视的巧合。

Mythos是什么，为什么如此敏感

要理解这次泄露的严重性，需要先理解Mythos本身。

Mythos（内部开发代号”Capybara”）是Anthropic迄今为止发布的最强大前沿模型。根据最初通过数据湖意外泄露、被Fortune于2026年3月首先发现的内部文件，该模型被描述为”比我们目前所有公开模型都大几个数量级，也更智能”，在软件编程、学术推理和网络安全方面”远超”现有能力水平。甚至有内部文件表示它是”迄今为止我们开发的最强大的AI模型”。

Mythos的核心应用场景是网络安全——具体而言，是自动发现代码中的安全漏洞。Anthropic声称，在过去数周的测试中，Mythos已经识别了”数千个零日漏洞，其中许多是关键级别的”，而且许多漏洞有10到20年历史（来源：TechCrunch，2026-04-07）。

这里有一个根本性的双刃剑问题：能找到漏洞的模型，也能被用来攻击那些漏洞。这正是Anthropic设计Project Glasswing的原因。

Project Glasswing是Anthropic专门为Mythos搭建的有限访问框架：12家核心合作伙伴参与”防御性安全工作”，总计约40家授权组织可访问预览版本。合作伙伴名单包括Amazon、Apple、Broadcom、Cisco、CrowdStrike、Linux基金会、Microsoft、Palo Alto Networks和Nvidia。这种”精英俱乐部”式的发布，被认为是在AI能力和安全风险之间找到平衡的最佳方式。

Anthropic研究产品管理负责人Dianne Penn在接受CNBC采访时说：”内部经过了大量讨论才决定有限发布。我们真的将此视为给很多网络防御者提前准备机会的第一步。”

理论上如此。

攻击向量：一个令人不安的简单路径

让我们仔细看一下泄露是如何发生的。

根据Bloomberg和TechCrunch的联合报道，未授权访问的路径如下：

首先，有一个在Discord上活跃的群体，专注于寻找和测试未发布的AI模型。该群体的某位成员目前就职于Anthropic的一家第三方承包商。这名员工通过其在承包商的工作权限接触到了Mythos的访问途径。随后，群体成员”根据Anthropic为其他模型使用的URL格式做出了有根据的猜测”，在Mythos公开宣布的同一天就定位了其在线位置（来源：TechCrunch，2026-04-21）。

这里有几个值得拆解的细节。

第一，这不是一次高难度的黑客攻击。 没有复杂的渗透技术，没有针对目标系统的0day漏洞利用，没有高明的社会工程学骗局。入口点是合法的承包商访问权限——这是供应链管理的基础问题，而不是纯粹的技术安全问题。这意味着，即使Anthropic的技术安全措施完好无损，事件依然会发生。

第二，URL格式的可预测性是一个系统性缺陷。 该群体依靠对Anthropic命名模式的了解来猜测Mythos的位置。这意味着Anthropic在不同模型的部署中使用了可预测的URL结构——一个在快速迭代的技术团队中常见的工程选择，但对于具有双重用途能力的高度敏感模型，这种”方便性设计”制造了不必要的暴露面。

第三，Anthropic的声明值得仔细推敲。 公司表示”目前未发现系统受到影响的证据”。这个措辞非常微妙——不是”没有影响”，而是”未发现影响的证据”。考虑到该群体已经使用Mythos”一段时间”，并提供了截图和实时演示，”未发现影响”更多可能是取证调查仍在进行，而非事件本身无害。

第四，这次泄露的”表演性”值得关注。 该群体向Bloomberg提供了截图和现场演示——这不是偷偷摸摸的使用，而是主动向媒体展示。Bloomberg引用的动机是”感兴趣的是玩新模型，而不是制造混乱”。但如果目的只是”玩”，为什么要向媒体展示？这种行为本身就带有某种”证明一件事”的意图——证明Anthropic的访问控制是可以被绕过的。

悖论的结构：能力越强，外包越深

这里是整个事件中最核心、也最少被公开讨论的问题：为什么Anthropic会依赖第三方承包商来运营其最敏感的模型？

答案不复杂，但令人不安。

AI前沿模型的运营需要大量专业人力。 模型的训练、微调、部署、监控、安全审计——每一个环节都需要高度专业化的工程师。Anthropic是快速扩张中的AI研究公司，要支持Project Glasswing中12家核心合作伙伴加上40家参与组织的集成工作，单靠内部工程团队几乎不可能完成。外包成为必然选择，而不是偶然选项。

商业化速度要求外包加速。 Amazon刚刚宣布再追加最多250亿美元投资给Anthropic（来源：CNBC，2026-04-20），企业规模扩张的压力要求比招聘节奏更快的能力部署。每获得一轮融资，都对应着更大规模的合作伙伴网络和更多外包运营需求。

每一个合作本身就是一个访问节点。 Project Glasswing的12家合作伙伴里，每家企业可能有数十甚至数百名工程师参与Mythos相关工作。这些工程师通过什么渠道接触到了系统，他们的背景调查达到什么级别，这些问题的答案决定了整个”可信圈子”的实际安全边界。

这构成了一个结构性悖论：AI模型越强大越敏感，就越需要精细的访问控制和运营支持，这反过来需要更多的外部人员参与，从而扩大了潜在的安全暴露面。

Anthropic面临的这个问题不是工程失误，而是商业模式内嵌的结构性矛盾。这个矛盾没有简单解法，但它将成为整个AI行业必须正视的挑战。

三个层面的安全挑战

从Anthropic的这次事件，可以看到三个层面的安全挑战叠加在一起。这些挑战不是Anthropic独有的——它们代表了当前AI行业在高价值能力商业化过程中普遍面临的结构性难题。

维度1：人员安全（Personnel Security）

传统软件安全中，”内部威胁”（insider threat）是最难防范的风险类别之一。但在AI时代，”内部”的边界已经大幅扩展：正式员工、长期合同工、短期承包商、合作伙伴的员工——所有这些人都可能接触到敏感系统，但只有正式员工会经过公司最严格的背景调查和合规培训。

Mythos事件中的访问来源于”第三方承包商的员工”——这恰恰是整个访问权限体系中审查最弱的类别。该员工可能完全不了解自己的访问权限有多广泛，也可能完全没有违反任何他所知道的内部规则。更重要的是，他的动机也并不邪恶——只是把工作权限分享给了感兴趣的朋友群体。从法律角度，这既不构成传统意义上的入侵，也不构成内部欺诈——这种”灰色区域”才是最令人棘手的地方，因为它意味着现有的法律框架和内部政策都没有有效的抓手。

这个问题不只属于Anthropic。OpenAI在推出早期GPT-4访问API时，也面临过类似的承包商泄露风险——早期内部测试版本的截图和功能描述曾通过第三方测试承包商的网络流传。Google DeepMind在与云合作伙伴共同测试Gemini Ultra的企业版本时，同样依赖大量外部集成工程师。行业的共识是：越是最前沿的能力，越是需要依赖有限的专业化外部人才来运营和集成——这个矛盾在每家顶级AI实验室内部都以不同形式存在，只是Anthropic的版本恰好被公开曝光了。

维度2：技术安全（Technical Security）

URL的可预测性问题揭示了一个更广泛的技术债。值得注意的是，这不是一个孤立问题。Anthropic在不到4周内就连续出现了3次技术安全事故：2026年3月31日，发布Claude Code 2.1.88时意外暴露了近2000个源代码文件和超过50万行代码；几天后，试图清除泄露内容时，又意外导致GitHub上数千个代码库被下线，包括许多与Anthropic无关的仓库（来源：TechCrunch，2026-03-31和04-01）。

这3件事放在一起，指向一个更深层的模式：在快速迭代部署的环境中，Anthropic的工程团队优先考虑了功能交付速度，安全流程的执行缺乏足够的防错机制（error-proofing）。URL的可预测性属于同一类型的问题——为了工程效率而牺牲了访问控制的隐蔽性。这不是偶然失误，而是流程层面的系统性缺陷。

维度3：生态安全（Ecosystem Security）

Project Glasswing本质上是一个”可信圈子”（circle of trust）机制：通过限制谁能访问模型来控制风险。这种机制的有效性依赖于圈子内每一个节点的安全性——不是任何一个节点，而是所有节点。

但这个圈子的边界是模糊的。12家核心合作伙伴里，每家企业有多少员工接触Mythos相关工作？这些员工又通过什么渠道接触了哪些承包商？每个承包商的员工是否接受了和核心合作伙伴相同级别的安全审查？这个问题的规模远比Anthropic内部人员管理的规模要大得多，而且随着合作伙伴网络的扩展，这个问题只会越来越难以管控。

行业影响：AI供应链安全的新门槛

Mythos事件最终会指向一个更大的行业问题：AI供应链安全将成为企业级AI采购决策中不可绕过的门槛。

这已经有政策端的信号。五角大楼将Anthropic列为”供应链风险”的表面理由是自主武器政策分歧，但”supply chain risk”这个标签本身反映了政府机构对AI公司整个供应链管理能力的系统性担忧。Mythos事件为这种担忧提供了具体案例支撑——这不是理论上的风险，而是实际发生的事故。

对于企业买家而言，这会催化以下几个决策变化：

其一，供应商尽职调查范围将扩展。 过去企业采购AI服务时，主要评估AI公司本身的合规认证（SOC2、ISO27001等）。未来，评估框架将需要延伸到AI公司的第三方运营合作伙伴网络。问题从”这家AI公司安全吗”变成”这家AI公司能管好它的所有合作方吗”。

其二，访问隔离将成为高价值AI能力的标配要求。 对于具有双重用途潜力的AI模型，企业会要求供应商提供证据，证明其合作伙伴的访问权限经过最小化设计并具备独立审计能力。”我们相信我们的合作伙伴”不再是足够的答案。

其三，政府级AI能力访问控制框架将走向标准化。 CISA（网络安全与基础设施安全局）已在与Anthropic进行”持续讨论”关于Mythos能力的问题（来源：CNBC，2026-04-07）。可以预期，对于具有强大网络安全能力的前沿AI模型，监管框架将参考类似ITAR（国际武器流量条例）的访问控制逻辑。在ITAR框架下，出口受控技术的每一次转让都需要政府审批并留下可追溯记录；未来的”AI ITAR”可能要求对Mythos类模型的每一次授权访问都进行类似级别的审查和备案。这不是异想天开，而是技术能力的危险性与政策监管的必然跟进之间的逻辑关系。

深层洞察：AI安全的范式需要从”圈子”升级到”审计”

整个Mythos事件，实际上是在压力测试一个在AI行业被广泛接受但从未被充分验证的假设：可信圈子（circle of trust）可以有效管控强大AI能力的扩散风险。

这个假设的根本问题在于，它把AI安全当成了一个静态的信任层级问题（谁有资格进圈子），而不是一个动态的网络治理问题（圈子内部的行为如何被持续监控）。

传统”可信圈子”逻辑：定义哪些实体是可信的→只让可信实体访问敏感能力→通过合同和技术手段限制传播。但在现代商业生态中，”实体”的边界是流动的：Apple是可信的，但Apple参与了某个用到Anthropic承包商的项目；这个承包商是可信的，但其员工网络包含了一个AI模型爱好者群体。每一个节点单独看都是可信的，但整个网络并不安全。

真正适合AI时代的安全范式，需要从”访问资格验证”转向”访问行为的持续可审计性”。这是零信任架构（Zero Trust Architecture）在AI高价值能力上的应用，具体来说有3个可操作的方向：

方向一：即时访问权限（Just-in-Time Access）。 不再授予长期驻留的访问权限，而是按照每个具体任务动态分配。承包商需要访问Mythos时，由专门的权限管理系统临时颁发有期限的访问凭证，任务结束后凭证自动失效。这从根本上消除了”承包商持有长期访问权限但公司不知道他在做什么”的问题。

方向二：不可否认的行为日志（Non-repudiable Audit Logs）。 每次Mythos被调用都写入独立审计系统，日志的完整性由独立于运营团队的第三方机构持有访问权。这意味着即使发生了未授权访问，也能精确重建完整的访问历史，包括调用者是谁、调用了什么、输入了什么、得到了什么输出，而不是停留在”目前未发现影响的证据”这样的模糊状态。金融行业在高价值交易审计上早已建立了这套体系，AI行业没有理由绕过它。

方向三：异常行为自动检测。 对访问模式建立基线（baseline），当访问频率、调用类型、输入内容模式出现偏离时，自动触发警报和访问暂停。这把安全从事后响应变成实时防御。

这些方向都有成熟的工业实践案例——金融行业的欺诈检测、云平台的CSPM（云安全态势管理）都是类似逻辑。AI行业需要的是将这些成熟框架适配到前沿模型访问控制的特殊场景中，而不是从零开始发明安全体系。

结语：同一天，两种镜像

2026年4月21日，Trump表示与Anthropic的国防合作”是可能的”。

同一天，Bloomberg报道Mythos被未授权访问。

这两件事放在一起，形成了一种奇特的镜像：政治层面对Anthropic能力的认可，与基础访问控制的失守，在同一天同时成为新闻。

Anthropic的价值叙事一直是：我们是最认真对待安全的AI公司，正因为如此，我们应该被信任来开发和部署最强大的AI能力。

这个叙事在Mythos事件后面临了真正的压力测试。

答案不在于单次事件的对错，而在于：当AI能力以指数级增长，而组织安全成熟度以线性增长时，如何系统性地缩小这两者之间的差距。

这不只是Anthropic一家公司的问题。随着越来越多的AI公司开发出越来越强大、越来越具有双重用途潜力的能力，每一家公司都将面临同样的结构性矛盾：商业化需要开放，安全需要封闭，而”可信圈子”在规模化扩张时越来越难以可靠地维持。

Crunchbase数据显示2026年第一季度全球风险投资总额达到3000亿美元，同比增长超过150%，其中大量资金流向AI基础设施。AI能力扩张的速度不会放慢——每一个新增的运营团队成员，无论是内部员工还是承包商，都是潜在的安全暴露节点。

从Mythos事件可以预见的是，AI行业将在未来12到24个月内出现一批新的行业规范：前沿AI公司将开始把”供应链安全认证”纳入与合作伙伴签约的核心条款；独立的AI安全审计行业将快速兴起；政府采购框架将把AI供应链安全要求标准化，就像ITAR框架规范了军事技术的出口控制一样。

能够主动建立可验证安全体系的AI公司，将在即将到来的监管浪潮中占据主动地位；而那些依然依赖”我们相信我们的合作方”的公司，则面临越来越大的合规和声誉风险。这不是选择题，而是时间问题。

这是AI行业在2026年必须直视的深水区问题。Mythos事件或许只是冰山一角。

参考资料

TechCrunch (2026-04-21) — Unauthorized group has gained access to Anthropic’s exclusive cyber tool Mythos, report claims
TechCrunch (2026-04-07) — Anthropic debuts preview of powerful new AI model Mythos in new cybersecurity initiative
CNBC (2026-04-07) — Anthropic limits Mythos AI rollout over fears hackers could use model for cyberattacks
CNBC (2026-04-21) — Trump says Anthropic is shaping up and a deal is ‘possible’ for Department of Defense use
Bloomberg (2026-04-21) — Anthropic’s Mythos Model Is Being Accessed by Unauthorized Users

当AI最强武器遭遇最脆弱的链条：Anthropic Mythos泄露事件的安全悖论

一件事的两个面孔

Mythos是什么，为什么如此敏感

攻击向量：一个令人不安的简单路径

悖论的结构：能力越强，外包越深

三个层面的安全挑战

行业影响：AI供应链安全的新门槛

深层洞察：AI安全的范式需要从”圈子”升级到”审计”

结语：同一天，两种镜像

About

Categories

Recent Posts

Resources