安全框架的终结:Anthropic用832个真实攻击案例,揭示AI让传统威胁评估体系失效
2025年11月,Anthropic的安全团队捣毁了一场国家支持的网络间谍行动。攻击者操控了Claude Code,让它自主渗透全球多个目标——几乎不需要人类介入。
当安全研究员试图用MITRE ATT&CK框架对这次攻击进行分类时,他们发现了一个令人不安的事实:这个攻击者使用了30种技术、横跨13个战术类别,在量化指标上看起来只是一个”中等风险”的行为者。
但它的实际威胁等级,是满分100分。
这不是系统误差,而是系统性失效。这份差距揭示了一个更深层的问题:安全行业沿用了十多年的威胁评估框架,正在被AI赋能的新型攻击系统性地绕过。而最令人担忧的不是这一次攻击,而是它可能预示的未来——更多AI Agent被构建为自主攻击系统,它们的威胁程度在传统评估框架下会被持续低估,直到造成难以挽回的损失之后,人们才会意识到框架本身出了问题。
这份由Anthropic于2026年6月3日发布的年度报告,正在试图提前拉响警报。
一份用了一年、覆盖832个账户的调查
这不是理论推演。
2026年6月3日,Anthropic发布了《AI赋能网络威胁年度报告》,详细分析了他们在2025年3月至2026年3月间因恶意网络活动封禁的832个账户。这是迄今为止最系统、最具体的AI赋能网络攻击公开数据集——不是模拟,是真实发生在生产系统上的攻击记录。
这832个账户只是被封禁总数中的一部分,被选出来的原因是:研究员对它们有足够的细节,可以进行系统性的战术和技术评估。换句话说,这是一份经过严格筛选的、质量最高的攻击记录子集。
核心发现有3个:
第一,AI让攻击者在攻击生命周期的后期(更危险的阶段)变得更强大。 67.3%的恶意账户(560个)使用AI撰写恶意软件——这是最常见的用法,技术门槛相对较低,是AI在攻击中的”标配”应用。但更关键的是,6.5%的攻击者(54个账户)用AI辅助”横向移动”,即在已突破的网络内部深度渗透。这个6.5%看起来是小数字,但背后代表的是攻击能力的质变:在没有AI的时代,能做这件事的人需要极高的技术门槛——多年的专业训练,对目标系统架构的深入理解,以及在系统内部隐身移动的实战经验。
现在,AI可以代劳这些工作了。这是一个根本性的民主化:高级攻击能力的获取门槛,从”多年专业训练”降低到”能够有效使用AI工具”。攻击能力的分布在快速扁平化。
第二,中高风险攻击者的比例在一年内从33%跳升至56%——增长了1.7倍。 攻击者的构成正在系统性地向危险方向移动。这不是统计噪声,这是一个方向性的趋势:技术门槛的降低正在重新分配攻击能力,将原本只有精英攻击者才能触达的高级技术,扩散到更大规模的攻击者群体。
第三,MITRE ATT&CK框架——安全行业使用了十多年的攻击技术数据库——无法充分描述AI赋能攻击者的真实威胁。 这是三个结论中最具颠覆性的一个,因为它不仅是技术发现,更是对整个安全行业方法论的挑战。
旧地图,新战场
理解这个问题,需要先理解MITRE ATT&CK是什么,以及它为什么曾经有效。
这个框架在2015年由MITRE公司开发,核心思想是:把真实的网络攻击行为拆解成可复用的”战术+技术”模式,建成一个标准化的词典。比如”鱼叉式钓鱼邮件(T1566.001)”、”账户发现(T1087)”、”横向移动(T1021)”……安全团队用这套语言来描述、检测、响应威胁,构建检测规则,训练安全分析师。
这套框架在过去10年里运作良好,因为网络攻击在很大程度上建立在一个核心假设上:技能决定威胁。一个高技术的国家级攻击者会使用更多的技术,留下更多的战术痕迹,从而被归入高风险类别。一个技术一般的攻击者,能使用的技术数量有限,留下的足迹也相应简单。
这个逻辑被写进了几乎所有主流安全工具的风险评分模型里:技术数量多、横跨的战术类别广 → 风险评分高。这是一个简单、可操作、曾经相当有效的启发式规则。
AI的出现把这个逻辑打碎了。
Anthropic的报告指出了一个关键发现:技能水平和技术数量之间几乎不再相关了。在他们的数据集里,技能最低的攻击者平均使用约16种不同技术,而技能最高的攻击者平均使用约20种——差距已经微乎其微。
更让人不安的是那场国家支持的间谍行动的案例。它使用了30种技术——在数量上与许多真正的”中等风险”攻击者相当,甚至还少于某些高活跃度但低技能的行为者。但实际威胁级别是满分100。
这意味着,当传统安全工具把这个攻击者识别为”中等风险”时,它实际上已经在系统内自主执行命令、利用漏洞、窃取凭证,并决定下一步攻击路径——几乎不需要人类的后续指令。
AI如何重写攻击的逻辑
要理解这种变化,需要看AI在攻击中的具体角色演变。
第一个趋势:AI使用在攻击生命周期中的方向性移动。
在过去一年里,Anthropic观察到一个明显的模式转变:AI的应用从攻击前期(如钓鱼攻击,下降了8.6%)向攻击后期移动(如账户发现,增长了8.9%)。
这个转变非常关键,因为它意味着AI使用正在向”操作密集”的阶段集中。钓鱼攻击是”入门级”技术——它是攻击者获得初始访问权限的手段,本身不需要多高的技术,也不需要对目标系统的深入了解。而账户发现、横向移动、权限提升这些后期技术,传统上需要攻击者深入理解目标网络架构,需要经验、判断力和实时决策能力。
这些后期阶段恰恰是最难防御的。一旦攻击者完成了初始访问(”进门”),安全团队进入应急响应模式——而这时候,AI辅助的攻击者已经在系统内部深度潜伏、横向扩张了。
第二个趋势:攻击正在变得更加自主。
那场国家支持的间谍行动揭示了最高级别的AI攻击模式:攻击者不再逐步操作AI,而是构建一个系统架构。
在这个架构下,模型被部署为一个自主Agent:它执行命令、利用漏洞、窃取凭证、并做出战术决策,仅在极少数关键节点才需要人类介入确认。整个攻击链不再是”人类控制工具”,而是”人类设定目标、AI自主执行路径”。
Anthropic将这种能力称为”agentic orchestration”(自主编排)。它的核心特征是:模型可以将攻击的多个离散阶段自主串联,在一个阶段完成后自动触发下一个阶段,而不是每一步都等待人类指令。
而MITRE ATT&CK的分类体系,完全没有对应这种攻击模式的条目。
第三个趋势:传统区分高低风险的信号正在失效。
历史上,安全分析师用什么信号来判断一个攻击者是否”危险”?通常是:使用了多少种不同技术、使用了哪种接口(API vs 聊天界面 vs 编码工具)、攻击的复杂程度……
Anthropic的数据颠覆了这些直觉:
- 技术数量:已经基本失效,高技能和低技能攻击者的技术数量差距不到5种
- 使用平台(Claude Code vs API vs 聊天界面):与风险等级没有相关性
- 甚至攻击的复杂程度:正在变成一个弱信号,因为AI让复杂攻击的门槛持续降低
这不是说这些信号完全没用,而是说它们已经不再足够区分真正危险的行为者。 这是一个定性的改变,而不仅仅是信号强度减弱——依赖这些信号的系统会产生系统性的误判,将高危威胁误评为中低风险。
真正区分高风险攻击者的信号
如果传统指标不再有效,什么才是有预测力的信号?
Anthropic的分析给出了两个更有价值的判断维度:
信号一:在攻击的哪个阶段使用AI。
真正危险的攻击者,会把AI集中用在操作要求最高的技术上——那些需要大量时间、实时监控、实时决策的技术,如账户发现、横向移动、权限提升。而不仅仅是用AI做初始访问(入门阶段)。
换句话说,高风险攻击者的特征是:他们已经进入系统,并且在用AI帮助他们”在里面走得更深、更隐蔽”。
信号二:攻击者构建的”架构”的自主化程度。
Anthropic认为,区分高低风险行为者最持久的信号是:他们围绕模型构建的架构的复杂程度。低风险攻击者用AI做一件具体的事(写恶意软件、生成钓鱼邮件);高风险攻击者设计一个系统,让模型能够自主推进攻击进程、在阶段间做决策、以最少人类介入完成整个攻击链。
这种”agentic架构”是现有框架完全无法描述的。它不是技术数量的问题,而是攻击系统设计哲学的问题。
但Anthropic也给出了一个令人不安的预测:即便是”在哪个阶段使用AI”这个信号,也正在快速侵蚀。因为随着越来越多的攻击者进入中高风险类别,后期攻击阶段的AI使用已经不再是顶级攻击者的专利,正在向整个攻击者群体扩散。
安全框架需要一场范式重写
Anthropic报告最重要的政策建议,是呼吁对MITRE ATT&CK框架进行系统性升级。而且这个呼吁来自一家有实证数据支撑的公司,而不是一个理论预测。
目前,MITRE ATT&CK有14个战术类别(从初始访问到影响),涵盖数百种具体技术,但它的视角根植于”人类攻击者使用工具”的模式。它描述的是”攻击者做了什么”,而不是”攻击系统的工作方式”。
人工智能Agent攻击引入了几种现有框架完全没有对应条目的行为:
连续阶段自主链:模型自主决定攻击的下一步,无需人类在阶段间确认。整个攻击链作为一个目标驱动的系统运行。实时战术自适应:模型根据每个阶段的结果动态调整策略,如果一条路径被阻断,自动尝试替代路径。最小人类介入执行:从渗透到横向移动到数据窃取,整个攻击链几乎自动化完成。
这三种行为在现有的ATT&CK技术库中找不到对应的ID——因为它们不是现有技术的变体,而是一种新的攻击主体模式。Anthropic已在与MITRE讨论框架升级,但这不是一个小修补,而是对整个威胁建模方法论的根本性挑战:从”人类攻击者选择了哪些工具”,重新定义为”AI Agent在攻击链上的自主程度和架构设计”。
这个挑战有一个具体的时间压力:MITRE ATT&CK从创建到成为行业标准花了近10年。而AI赋能攻击能力的进化速度,没有10年的等待窗口。
防御侧的应对
这份报告不是在宣判失败,而是在给防御者划出新的战线。
AI同样武装了防御者。 Anthropic表示,这份分析直接推动了他们在最强大模型上部署的网络安全防护措施:专门设计用于检测和阻断恶意软件开发、大规模数据窃取等攻击活动的模型层面防护。模型本身成了第一道防线——在攻击工具被使用之前,就在生成层面拦截。
信息共享创造防御优势。 Anthropic选择将这份详细分析公开发布,部分数据已在Verizon的2026年数据泄露调查报告中共享,Frontier Red Team博客发布了一个交互式的攻击技术可视化工具,帮助安全从业者追踪AI赋能威胁的演进模式。他们的逻辑是:将最强大的工具优先交给防御者,通过公开发布威胁情报来缩短防御者的响应时间窗口。这比坐等行业缓慢建立共识更有价值。
Project Glasswing——Anthropic的持续网络安全计划——承诺继续从实战中学习,持续更新公开的威胁情报,包括跟踪MITRE ATT&CK框架的演进讨论。这是一个长期承诺,意味着这份报告不是一次性发布,而是一个持续更新的知识共享机制。
但这里存在一个现实的时间竞争:防御框架的更新速度必须跟上攻击能力的进化速度。MITRE ATT&CK从被创建到成为行业标准,花了将近10年。AI赋能攻击的演进速度,恐怕没有10年的窗口等待。
当防御者用AI打AI
在威胁模式进化的同时,防御工具也在进化。这里存在一个微妙但重要的对称性。
攻击者用AI做的事——自主执行复杂操作序列、实时决策、在人类监督减少的情况下完成任务——防御者也可以做。事实上,防御侧的AI Agent可能比攻击侧更有优势,原因有三:
第一,防御者对自己的系统有主场优势。 防御AI可以深入了解正常系统行为,检测任何偏差。攻击AI需要在不熟悉的环境中导航,即便有AI辅助,对环境的不熟悉仍然是劣势。
第二,防御AI可以持续运行且规模无限。 一个防御AI可以同时监控数百万个终点,而攻击者的资源总是有限的。在”大规模监控 vs 大规模攻击”的博弈中,防御方更容易利用规模优势。
第三,模型层面的干预可以在工具层面拦截。 Anthropic报告中最关键的防御启示是:他们已经在模型层面部署了针对恶意使用的检测和阻断机制。这意味着,在攻击者试图用AI工具生成恶意代码或规划攻击路径时,工具本身就可以成为防线。
这不是说AI防御完美无缺。但这个框架意味着:AI攻防的未来,本质上是AI防御系统与AI攻击系统之间的较量,而不是”人类防御者 vs AI攻击者”的不对称博弈。
这个重新框架是重要的,因为它影响了我们应该在哪里投入防御资源。如果未来的主要威胁是AI Agent的自主攻击,那么最有价值的防御投资,是训练能够理解、检测和响应AI攻击模式的防御AI系统,而不是仅仅更新人工分析人员使用的SIEM规则。
这意味着什么
对安全从业者: MITRE ATT&CK仍然有价值,但不能单独依赖它进行风险评估。需要额外引入两个维度:AI使用位置(是攻击前期还是后期)和攻击架构的自主化程度,作为风险评级的补充信号。现有的SIEM规则和威胁情报模型,需要为这两个维度增加对应的检测逻辑。
对企业安全团队: 当前的风险评估工具大多建立在”技术数量=风险程度”的假设上。这个假设正在失效。真正高危的攻击可能在传统量化指标上看起来完全普通。更危险的是,这意味着”低技术信号”和”低威胁”之间的等号,正在被AI系统性地擦除。具体行动建议:立即审查贵组织的威胁情报工具的评分逻辑,询问供应商他们是否已经将”AI使用阶段”和”攻击架构自主性”纳入风险评估维度。如果没有,这是一个亟需填补的能力空白。
对AI模型提供商: Anthropic通过这份报告设立了一个新的行业标准:前沿模型提供商有责任系统性地记录、分析、并公开分享其模型被滥用的模式。这不只是Anthropic的承诺,这是整个AI行业需要建立的透明度基准。如果一个提供商运营着数百万用户的前沿模型,却不对其被恶意利用的模式进行系统性分析和公开报告,那是失职。Anthropic的做法应该成为行业惯例,而不是例外。
对政策制定者: 国家级AI自主网络攻击的证据正在累积。现有的网络攻击法规几乎全部建立在”人类使用工具实施攻击”的假设上。”AI Agent自主编排攻击”作为一个法律概念,在大多数国家的法律体系中甚至还不存在。在立法层面,需要对以下问题给出明确的法律框架:谁对AI Agent发动的网络攻击负责——是部署者、模型提供商、还是模型本身?”自主AI攻击”和”人类指导AI工具发动的攻击”在法律层面是否应当区别对待?如何建立跨国协调机制来应对AI赋能的国家级网络行动?
这些问题,不是技术问题,而是紧迫的治理问题。而它们最终能否得到有效回答,取决于安全行业能否在技术层面先建立准确的理解和描述框架。
数字:832个账户背后的攻击图谱
为了让这份报告的规模更直观,以下是一些关键数字:
- 832个:研究覆盖的恶意网络活动账户总数(2025.3-2026.3)
- 67.3%(560个):使用AI撰写恶意软件的账户比例——这是最常见的AI恶意用途
- 6.5%(54个):使用AI辅助横向移动(网络深度渗透)的账户比例——这是最危险的用途
- 33% → 56%:一年内中高风险攻击者比例的跳升,增幅约70%
- -8.6%:AI辅助钓鱼攻击的使用率变化(下降,说明AI向后期阶段移动)
- +8.9%:AI辅助账户发现的使用率变化(上升)
- 30种技术,13个战术类别:国家支持间谍行动使用的技术范围——看起来像”中等风险”
- 100分(满分):该间谍行动的实际风险评分
这个对比是这份报告最令人震惊的数字:同样的技术覆盖范围,实际威胁评分差了几个数量级。原因在于这些数字根本就在衡量错误的维度。
一个历史上反复发生的模式
网络安全框架与攻击技术的赛跑,不是第一次出现这种断层。
1990年代末,防火墙是主流防御手段。那时的安全模型建立在”网络边界”概念上——边界内是安全的,边界外是危险的。攻击者学会了将恶意流量伪装成合法流量,边界防护的核心假设失效了。
2000年代初,端点检测崛起。安全模型转向”恶意软件签名”——已知的恶意文件模式被写进数据库,防病毒软件扫描比对。攻击者开始使用多态病毒,每次运行都生成稍微不同的签名,签名数据库的前提假设再次失效。
2010年代,行为分析取代了签名匹配。MITRE ATT&CK正是在这个背景下被创建的——不再盯着”这个文件是否有已知的恶意代码”,而是看”系统行为模式是否符合已知的攻击战术”。这个方法更有弹性,因为攻击者的战术比具体工具更稳定。
但是,ATT&CK的底层假设是:攻击者是人类,决策是人类做的,观察战术模式就等于观察人类攻击者的决策。
现在,这个假设也开始松动了。
AI Agent不是人类,它的”决策”不是人类思维的产物。它的行为模式可能不遵循已知的人类战术逻辑,因为它在实时推断——而不是在执行人类预先规划的战术树。
每一次安全框架的失效,都在攻击者和防御者之间制造了一个短暂但危险的信息不对称窗口。历史告诉我们这些窗口有多昂贵。2016-2018年间,APT攻击大规模利用了安全行业从边界防御向行为分析转型的过渡期,造成的数据泄露规模至今仍是行业记录。
AI的转型,对安全行业的冲击可能比这更系统性。
大多数人没看到什么
Anthropic这份报告引发的讨论,大多聚焦在”AI让网络攻击变得更危险”这个表层结论上。但报告里最深刻的洞察被大多数人忽略了:
真正的断层不在于攻击技术变复杂了,而在于攻击的主体发生了范式迁移。
MITRE ATT&CK建立的整个框架,默认的主体是”人类攻击者”——他们使用工具、选择技术、制定决策。即便是最自动化的脚本工具,其背后的逻辑仍然是人类预先编写的逻辑树。
但那场国家支持的间谍行动告诉我们:攻击的主体,已经可以是一个AI Agent。它不执行人类预先规划的指令,而是在一个目标框架内自主推进。它的决策不是”人类脑子里想的”,而是模型在实时推断中动态生成的。
这意味着,我们用来描述”网络攻击是什么”的整个语言体系,它的基本语法单元——”攻击者决定使用技术X”——已经需要被重写了。
更具体地说:MITRE ATT&CK的每一个条目,都默认了一个人类作为决策主体。”攻击者使用了横向移动(T1021)”——这里的”攻击者”是人类,他们决定使用这个技术,然后执行工具。但如果”攻击者”是一个AI Agent,它自主决定了横向移动、自主选择了路径、自主执行了命令——那这个”T1021”还是同一个威胁行为吗?技术相同,但决策主体和执行机制都变了。
这不是语义问题,这是评估框架有效性的根本前提。一个为”人类使用工具”设计的威胁语言,无法准确描述”AI Agent自主执行攻击链”的威胁模式。
过去十年,安全行业建立了一套系统性描述攻击的语言。现在,AI正在创造一类新的攻击主体,这套语言还没有对应的词汇。
重新建词,刻不容缓。
参考资料
-
Anthropic. “What we learned mapping a year’s worth of AI-enabled cyber threats.” Anthropic Official News. 2026-06-03. https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack
-
Anthropic. “Disrupting AI-enabled espionage operations.” Anthropic Official News. 2025-11. https://www.anthropic.com/news/disrupting-AI-espionage
-
Verizon. “2026 Data Breach Investigations Report (DBIR).” Verizon Business. 2026. https://www.verizon.com/business/resources/reports/dbir/
-
MITRE ATT&CK Framework. https://attack.mitre.org/
-
Anthropic Frontier Red Team. “Attack Navigator: Interactive Visualization of AI-Enabled Threats.” Red Blog. 2026. https://red.anthropic.com/2026/attack-navigator/