Anthropic越「安全」，越深入战场：当120名儿童死亡后，「人类负责」原则的核心漏洞再无处藏身

2026年6月10日，一个让整个AI行业陷入沉默的承认，出现在Bloomberg的采访记录中。

Anthropic CEO Dario Amodei，被问及Claude AI在2月底伊朗小学导弹袭击事件中扮演的角色——那次袭击造成约120名儿童死亡。Amodei的回答是：

「我们不知道这些模型具体是如何被使用的。」

他随后补充了一句：「人类做最终决定的原则，得到了遵守。」

这两句话，放在一起，揭示了一个在AI行业长期悬而未决、现在无法再回避的巨大张力。

同一周，Anthropic向美国政府提交建议，敦促强制要求对最强大AI模型进行安全测试；Dario Amodei发布数千字政策文章《Policy on the AI Exponential》，呼吁政府获得阻止危险AI部署的法律权力；公司宣布投入2亿美元研究AI对经济和就业的影响。

「AI安全第一」的公司，在同一周内，说了「我们不知道」。

这不是Anthropic一家公司的失败。这是整个AI行业所建立的责任体系，在真实战争场景中第一次被放到聚光灯下检验，并且在检验中暴露出一个难以用技术修复的系统性裂缝。

「人类做最终决定」：这个原则在设计之初，假设了什么？

在AI伦理领域，「Human in the loop」（人类在决策链中）是最广泛被引用的安全原则之一。当被问到AI武器化风险时，几乎每一家AI公司都会援引这一框架：AI只是工具，决定权在人类，因此AI公司不是直接责任人。

这个框架有其合理性，也有其历史背景。

它最初被提出，是为了解决一个具体问题：防止全自主武器系统（Lethal Autonomous Weapons Systems，LAWS）在没有任何人类监督的情况下自主发动攻击。在这个语境中，「人类在决策链中」是有意义的边界——它确保了在导弹发射的那一刻，有一个人类存在，承担法律和道德责任。

但Amodei面对的问题，根本不是关于「导弹是否自主发射」。

它是关于：当AI模型被用于情报分析和作战规划的上游决策支持环节，那个最终按下按钮的人类，是在多大程度上进行了独立判断？

这是认知科学和决策研究领域早已反复记录的问题，有一个专业名字：自动化偏见（Automation bias）。

1999年，Skitka等研究者的实验显示，当自动化系统的建议与人类直觉相冲突时，67%的参与者仍然选择了跟随系统。2014年，Lyons的元分析进一步确认，在高压、高速度、高信息密度的决策环境中（比如战场），这种偏见会更加显著——操作员缺乏时间和认知资源进行独立验证。

换句话说：当AI系统提供了情报分析、目标识别、威胁评估的一系列「建议」，那个最终做出决定的人类，在很多情况下，实际上是在「确认」AI的建议，而非真正「决定」是否接受它。

这种「确认」与真正意义上的「决策」之间，有根本的区别。确认，意味着你接受了框架；决策，意味着你有能力独立构建框架。

「人类做最终决定」，在这种情境下，仍然是技术意义上的真实陈述。但它所承载的伦理内涵——人类是真正意义上的决策者，因此AI公司不负责任——开始变得非常脆弱。

更关键的是，Amodei的陈述本身就揭示了一个更深的问题：连Anthropic自己都不知道人类是否真的「做了决定」，还是只是「按照AI的建议行动」。这种信息不透明，让「人类负责」这一原则的实质，无法被独立验证。

不透明的合同：AI公司在军事场景中的可见性盲区

「我们不知道」背后，是一个更深层的结构性问题：AI公司与政府军事用户之间的合同，几乎全部受到保密协议的约束，这创造了一个系统性的可见性盲区。

当一家AI公司向五角大楼或其承包商提供API访问时，通常面临以下情况：

使用目的不透明。 政府合同通常以高度概括的方式描述用途（「情报分析」、「决策支持」），而不是具体任务清单。AI公司签约时，无法准确评估其技术将被用于哪些具体场景。一份写着「支持国家安全分析任务」的合同，可能覆盖从预算规划到目标识别的任何内容。

使用结果不可追踪。 即使Anthropic想追踪Claude在特定军事场景中的输出是否被采用、采用后产生了什么结果，在技术和合同层面也几乎不可能实现。API请求进入系统，生成文本返回，交互在那里结束。后续发生了什么，对模型提供者完全不可见。Anthropic无法知道它的某条输出是否出现在了某份情报报告里，而那份情报报告是否被用于支持某次打击决策。

披露义务受限。 国家安全相关合同通常包含严格的保密条款，约束承包商披露合同细节和使用信息。即使Anthropic想主动公开报告其军事AI使用情况，也可能受到法律约束。「负责任」的意愿，在保密条款面前，可能变成无法执行的承诺。

合规验证无法进行。 Anthropic可以制定使用政策，声明禁止某些用途。但当它无法知道合同实际用于什么场景时，这种政策的约束力完全依赖客户自我报告——而政府军事客户，没有任何激励进行这种自我报告。

这种不透明，不完全是技术限制，而是商业逻辑和国家安全逻辑共同塑造的结果。政府客户要求保密，AI公司也没有经济激励去建立可能增加自身风险、甚至损害政府关系的监控体系。

结果是一个令人不安的现实：一个声称最关注AI安全的公司，在其最高风险的部署场景中，拥有最低的可见性。「安全第一」的承诺，在军事应用场景里，实际上是在黑箱中运行的。

Forbes报道提到，Anthropic的AI模型被美国国防部「广泛使用」于情报分析和作战规划场景。「广泛」意味着什么规模？意味着哪些具体任务？意味着多少份情报报告由AI生成或辅助生成？这些问题，Anthropic自己可能也无法回答——不是因为不诚实，而是因为系统设计上根本不提供这种反馈。

120名儿童：当AI伦理的抽象讨论变成具体数字

在绝大多数AI伦理讨论中，伤害是抽象的。

「偏见算法」——这是一个概念；「AI误判」——这是一个统计概率；「潜在滥用」——这是一个假设场景。整个AI安全领域大量的讨论能量，被用于讨论尚未发生、或者难以归因的假设伤害。

伊朗事件，把这些抽象概念变成了具体数字：120。

120名儿童死亡。2026年2月，一场导弹袭击，打击了伊朗一所小学。这场袭击背后的情报和作战规划，据报道使用了AI辅助分析，而在这条供应链中，据Forbes报道，有Anthropic的Claude。

这不是说Claude「下了命令」。这不是说Anthropic的工程师「决定打击那所学校」。没有人这样指控。

但这是说：在那条从情报收集、目标识别、威胁评估到最终打击命令的决策链中，某个环节使用了Claude的语言模型能力——而Anthropic对此「不知道」。

对于这个「不知道」，有几种不同的道德解读。

解读一：技术上等同于地图公司的非责任主义立场。 军事行动有其复杂的指挥链，导弹是否打击了正确的目标，责任在于发出命令的人类军事指挥官，而不在于提供情报分析工具的软件供应商。就像一家地图公司不应该为使用地图规划攻击路线的恐怖分子负责。这个论点有法律意义上的支撑，但它回避了一个重要区别：地图公司提供的是客观地理数据，通用用途极广；Anthropic提供的是经过专门训练、专门面向情报和决策场景的AI分析能力，并有针对政府和国防部的专项营销和部署。

解读二：供应链责任的道德延伸。 武器制造商出售武器，最终被用于平民伤亡时，制造商是否负有责任？这在国际法和道德哲学领域是长期争论的问题。一般的答案是：如果制造商知道武器会用于此类场景，责任更重；如果不知道，责任较轻但仍存在审慎义务。Anthropic的「不知道」，在这个框架下，既是减轻自身责任的因素，也恰好说明其审慎义务的不充分。

解读三：系统性共谋的结构视角。 当一家公司的商业模式系统性地依赖于在不透明场景中向高风险客户提供能力，同时主张「人类负责」原则作为免责依据，这种商业安排本身，是否构成一种有意设计的道德规避？这是最激进的解读，但它触及了问题的核心：AI行业目前的军事AI商业化路径，在结构上是否允许真正的伦理追责？

Anthropic的独特困境：越安全，越深入战场

有一个值得仔细审视的反讽结构，贯穿在这整件事里。

正是因为Anthropic在AI安全上建立的公信力，使其成为国防部的优先合作对象。

美国政府在选择AI供应商时，会优先考虑那些有能力证明其系统在高风险场景下不会失控的公司。「宪法AI」（Constitutional AI）——Anthropic开发的、使模型遵循一系列宪法原则的训练方法；「可解释性研究」——试图理解AI模型内部工作机制的工程；「Claude安全框架」——详细规定模型在不同风险场景下应如何回应的协议。

Anthropic在这些领域的公开投入，正是让军方信任Claude的重要原因之一。一个能解释自己为什么给出特定建议的AI，一个有明确安全边界的AI，在情报分析场景中，比那些行为不可预测的模型更值得信赖。

换句话说：Anthropic越成功地建立「AI安全领导者」的品牌，就越可能被高风险军事场景采用。而军事采用，又是最难追踪、最难保证「按照安全原则使用」的场景。

这不是简单的道德谴责。这是一个结构性困境，任何在安全领域投入的公司都会面临。但它提出了一个真正困难的问题：

如果「建立安全品牌」会导致「更多军事采用」，而「更多军事采用」会导致「更少可见性和控制」，那么AI安全投入的净效应，对安全本身究竟是正还是负？

目前没有人能清晰回答这个问题。这是AI伦理领域迄今为止最重要的、也最被回避的悖论之一。

行业层面：不只是Anthropic的问题

这件事值得扩大到行业视角来理解，因为它揭示的问题，不只属于Anthropic。

OpenAI的转变。 2023年，OpenAI修改了使用政策，删除了明确禁止军事和武器开发的条款，将其替换为更模糊的「我们的API不得用于开发大规模杀伤性武器」。这一修改，实际上打开了军事情报、决策支持等应用的大门。现在，OpenAI与多家美国国防承包商有合作关系。当被问到类似问题时，OpenAI通常给出措辞更谨慎的回应，但本质上面对相同的可见性问题。

Google Cloud的Project Nimbus。 Google为以色列政府提供云AI服务，合同规模约12亿美元。2024年，约50名Google员工因抗议这一合同被解雇。Google的官方立场是合同不涉及军事敏感应用，但内部反对声音持续存在。这一事件表明，AI公司内部存在真实的、对军事合同伦理的质疑——但商业逻辑往往压过了这些质疑。

Microsoft的双重立场。 Microsoft是多个军事AI项目的基础设施提供商，同时也是OpenAI的最大投资方。其在AI伦理上的公开表态，与其军事合同业务之间的张力，长期以来被分析人士指出，但很少被正面处理。

这些公司，面对记者问「你的AI是否参与了某次军事行动」时，通常给出更精心包装的回应：「我们的使用政策明确规定…」「我们的合规团队负责…」「人类在所有关键决策中…」

Amodei说了「我们不知道」。

这是一个令人不安的答案，但它可能比其他公司那些措辞精良的声明，更接近整个行业的真实状态。当可见性系统性不存在时，任何声称「知道」的公司，要么拥有其他公司没有的追踪机制，要么在说一句更精心设计的、等价于「我们不确定但不想说」的话。

整个AI行业目前的状态，可以用一个句子概括：大量强大的AI模型，被部署在政府和军事场景中，由原始开发商的可见性和控制能力极其有限，而现有的责任框架（主要基于「人类负责」原则）在设计时并没有充分考虑这种可见性盲区的存在。

IPO压力之下的道德算术

2026年，Anthropic距离IPO可能只有不到一年。

在这个时间窗口里，如何平衡「AI安全领导者」的公众形象，与来自政府客户的高价值合同，是一道无法回避的算术题。

根据公开报道，美国政府和军方的AI支出，2026年预计超过180亿美元，是2022年的6倍以上。在这个市场中获得份额，对任何有IPO计划的AI公司都提供了巨大的收入激励。

同时，Anthropic的IPO叙事，很大程度上建立在「我们是AI安全的守护者」这一定位上。这是区别于OpenAI的核心品牌价值。如果伊朗事件被大量报道并引发公众反应，这一定位会受到严重损伤，进而影响IPO估值。

Amodei在伊朗事件上的诚实，可以从这两个维度分别解读：

道德维度： 在一个大多数人选择沉默或回避的问题上，Amodei选择了说出一个令自己不舒适的实情。这需要勇气，也有真实的代价——这篇文章本身就是代价的一部分。他的政策文章和2亿美元承诺，在这个语境下，是试图把承认转化为行动的努力。

策略维度： 主动承认「不知道」，同时主张「人类负责」，是一种精心校准的诚实。它承认了可见性盲区，但没有承认责任。它邀请公众聚焦于「系统性问题」，而不是「Anthropic的具体责任」。它在说出真相的同时，也在进行框架管理。

这两种解读可能同时为真。人类的道德选择，很少是纯粹的一种动机的产物。

但无论动机如何，Amodei打开了一扇门。一扇关于AI军事应用、关于「人类负责」原则实质内涵、关于AI公司透明度义务的讨论之门。这扇门，已经打开了，不会再轻易关上。

我们需要什么样的答案？

在讨论伊朗事件时，很容易陷入两种极端立场：要么是「AI公司必须对所有军事应用负责」（不切实际，且混淆了责任层级）；要么是「AI公司只是工具提供商，人类负全责」（回避了供应链中的道德关系）。

真实的答案，可能在这两者之间某个更难的地方。

以下是一些需要被认真追问的具体问题，而它们目前都没有令人满意的答案：

透明度机制。 当AI模型被用于军事决策支持时，是否应该有机制要求记录AI建议与最终决策之间的关系？这不需要（也不应该）披露机密情报，但「AI建议采纳率」这样的聚合指标，是否可以作为独立审查的依据？目前，没有这样的机制存在。

使用限制的精确化。 Anthropic的使用政策目前对「有害用途」的定义，适用于军事场景吗？是否需要针对平民目标识别等高风险场景，制定更精确的使用限制，并将这些限制写入政府合同条款？

独立伦理审查。 当私有AI公司与军方签订高价值合同时，是否应该有独立的第三方伦理机构（类似药品监管中的IRB，机构伦理审查委员会）审查合同内容和应用场景？目前，这类审查几乎不存在。

信息不对称的结构性纠正。 「人类负责」原则，是否应该被细化为「知情的人类负责」原则——即只有当人类决策者拥有足够的信息、时间和认知资源进行独立判断时，这一原则才被视为有效？否则，应该升级AI参与度的限制。

这些问题，不只是针对Anthropic，也不只是针对美国政府。它们是AI行业在军事场景中的全球性问题，需要在国际法、技术标准和行业规范多个层面同时推进。

但它们需要从某个地方开始。而Amodei的「我们不知道」，是一个迟来但必要的起点。

结语：诚实，作为起点而非终点

「我们不知道模型是如何被使用的。」

这句话，在2026年6月10日之前，很可能是所有部署了军事AI的商业公司的实际状态。区别只在于，大多数人没有说出来。

Amodei说出来了。这是一种道德勇气，也是一个诚实的系统性承认。

但诚实，只是起点，不是终点。

在120名儿童的死亡面前，「我们不知道」需要被转化为一个行动方案：「我们要建立知道的能力」，或者「我们要限制那些我们无法追踪的使用」，或者「我们要推动建立独立的监督机制」。

这不是一家公司能单独完成的事。但它可以，也应该，从每一家选择诚实的公司开始。

「人类负责」原则的终极检验：谁来验证「人类确实负责了」？

在伊朗事件的语境下，「人类做最终决定」的主张面临一个根本性的验证问题：如果AI公司无法追踪模型的实际使用，这一原则的实现，完全依赖军事客户的单方面声明。没有独立验证，没有第三方审计，没有任何让供应商能够核实原则被遵守的机制。

这意味着，Anthropic在安全框架上的所有投入——Constitutional AI、可解释性研究、红队测试——在军事部署场景中，都存在一个根本性的断口：从训练阶段的安全保障，到实际使用场景的安全实现，之间存在一条看不见的鸿沟。

Amodei的诚实，恰好是对这条鸿沟最清晰的定位：「我们不知道」，意味着鸿沟存在；「人类做最终决定」，意味着公司选择相信鸿沟的另一侧。

这种信任，在120个孩子的现实面前，需要被更多东西支撑。

参考资料

Anthropic CEO: ‘We don’t know exactly how Claude AI was used in Iran school strike’ — Forbes, 2026-06-10
Anthropic Lobbies U.S. Government to Require Safety Testing for Frontier AI Models — Reuters, 2026-06-10
Anthropic’s Policy on the AI Exponential — Dario Amodei, Anthropic, 2026-06-10
Automation Bias in Human-Machine Interaction — Skitka, Mosier, Burdick, Human Factors, 1999
Trust in Automation Review: A Meta-Analysis — Lyons, Human Factors, 2014
OpenAI removes military/weapons ban from usage policies — TechCrunch, 2024
Department of Defense AI Adoption — FY2026 Briefing — U.S. Department of Defense, 2026

Anthropic越「安全」，越深入战场：当120名儿童死亡后，「人类负责」原则的核心漏洞再无处藏身

「人类做最终决定」：这个原则在设计之初，假设了什么？

不透明的合同：AI公司在军事场景中的可见性盲区

120名儿童：当AI伦理的抽象讨论变成具体数字

Anthropic的独特困境：越安全，越深入战场

行业层面：不只是Anthropic的问题

IPO压力之下的道德算术

我们需要什么样的答案？

结语：诚实，作为起点而非终点

「人类负责」原则的终极检验：谁来验证「人类确实负责了」？

参考资料

Tags:

About

Categories

Recent Posts

Resources