NIST 69 页报告拆解 DeepSeek:1000% 的下载增长与 94% 的越狱成功率
2026 年 3 月 24 日,美国国家标准与技术研究院(NIST)下属的人工智能标准与创新中心(CAISI)发布了一份长达 69 页的 DeepSeek 模型评估报告。这份报告的核心发现可以用一组令人不安的对比数字概括:自 2025 年 1 月以来,DeepSeek 模型的全球下载量增长了约 1000%,但与此同时,94% 的恶意请求可以通过越狱技术成功突破 DeepSeek 的安全防线——而同类美国顶尖模型的这一数字仅为 8%。
这份报告不仅仅是一份技术评测。它是美国联邦政府首次以正式机构的名义对一个来自中国的人工智能模型进行系统性的安全和能力评估,其政策含义远远超出了技术层面。在中美人工智能竞争日益白热化的 2026 年,NIST 报告的发布时间点和措辞选择本身就带有鲜明的战略意图。
报告揭示的五个核心发现
让我们先不带情绪地逐一审视报告的主要发现。
第一项发现关乎基础能力:在 NIST 使用的几乎所有标准化基准测试中,DeepSeek 的表现均落后于美国顶尖模型。报告明确点名了两个对照组——OpenAI 的 GPT-5 系列和 Anthropic 的 Claude Opus 4。在多轮推理、代码生成、数学证明和长文本理解等关键维度上,DeepSeek 的得分系统性地低于这两个模型。差距不是微不可察的——在部分复杂推理任务上,DeepSeek 的准确率比美国顶尖模型低 15 到 20 个百分点。
第二项发现涉及使用成本:出乎很多人预料的是,DeepSeek 的实际使用成本比同等能力的美国模型高出约 35%。这个发现直接挑战了 DeepSeek 在市场宣传中最核心的竞争叙事——”以更低的成本提供接近顶尖的性能”。NIST 的成本计算考虑了推理延迟、错误重试率和上下文窗口利用效率等因素,这些隐性成本在简单的每百万 token 单价比较中往往被忽略。当一个模型的推理准确率更低、需要更多轮次的交互来完成同样的任务时,看似低廉的单次调用价格就被放大的调用次数稀释了。
第三项发现是安全性评估中最具冲击力的部分:94% 的恶意请求可以通过越狱技术绕过 DeepSeek 的安全防护机制成功执行,而美国顶尖模型的这一比率仅为 8%。这意味着 DeepSeek 的安全对齐——也就是防止模型被用于生成有害内容的技术防线——几乎形同虚设。对于任何考虑在安全敏感场景(如金融、医疗、政府服务)中部署 DeepSeek 的组织来说,这个数字应该是一个明确的红色警告信号。
第四项发现涉及一个更微妙但同样重要的维度:NIST 评估了 DeepSeek 在对抗性 Agent 劫持攻击中的表现,发现其易感性是美国模型的 12 倍。所谓 Agent 劫持,是指攻击者通过精心设计的输入来操纵人工智能代理偏离其预定行为,执行攻击者希望的操作。在人工智能代理越来越多地被用于执行真实世界任务(如自动化客服、代码部署、财务操作)的 2026 年,Agent 劫持已经从一个学术讨论话题升级为一个真实的安全威胁。DeepSeek 在这个维度上 12 倍的易感性差距,意味着基于 DeepSeek 构建的代理系统在面对恶意攻击时几乎没有防御能力。
第五项发现触及了政治敏感地带:报告指出 DeepSeek 在涉及特定政治话题时的”叙事回响率”是美国模型的 4 倍。这个量化指标衡量的是模型在回答政治敏感问题时与特定官方叙事的一致程度。虽然报告在措辞上相对克制,但这个发现实质上是在说:DeepSeek 在输出内容中携带了系统性的政治偏见,而且这种偏见的程度远高于美国模型中观察到的类似现象。
1000% 增长悖论:为什么越不安全的模型越受欢迎?
NIST 报告中最耐人寻味的张力,在于两组看似矛盾的数据之间的关系:DeepSeek 在安全评估中全面落后于美国模型,但其下载量却在过去一年多的时间里增长了 1000%。
这个悖论的解释并不复杂,但它揭示的行业现实令人不安。
首先是价格敏感性。尽管 NIST 指出 DeepSeek 的”真实成本”并不像市场宣传的那样低廉,但其标价仍然显著低于 GPT-5 和 Claude Opus 4 的官方定价。对于预算有限的中小型开发者和发展中国家的企业来说,一个”差不多能用但便宜很多”的模型比一个”更好但贵得多”的模型更具吸引力。在这个群体中,安全性评估往往不是采购决策的首要考量。
其次是开放获取的优势。DeepSeek 的模型权重完全公开,任何人可以下载、部署和修改。这种开放性在那些不愿意将数据发送到美国公司服务器的组织(出于数据主权考虑或简单的对美国科技公司的不信任)中尤其有吸引力。当你可以在自己的服务器上运行一个足够好的模型时,”是否安全”的判断标准可能与在公有云上使用商业模型时完全不同。
第三是生态效应。当 DeepSeek 的累计下载量突破一个临界值后,围绕它的开发者社区、教程资源、微调经验和集成工具开始自我强化。新的开发者选择 DeepSeek 不仅因为模型本身,更因为”很容易找到别人用 DeepSeek 解决类似问题的经验”。这种生态惯性一旦形成,即使安全性评估报告公之于众,也很难在短期内逆转用户的选择。
这三个因素叠加在一起,创造了一种令人忧虑的动态:在全球人工智能部署的长尾市场中,安全性正在被价格和可获取性所压倒。
报告之外:NIST 评估的政策意图
NIST 报告不是在学术真空中发布的。理解它的完整意义,需要将它放在更大的政策背景中审视。
2026 年的中美人工智能竞争已经从技术层面全面延伸到了政策层面。美国政府通过出口管制限制先进人工智能芯片向中国出口;中国则通过 DeepSeek 等开源模型绕过了这些限制——你不需要最先进的芯片来运行一个已经训练好的模型。NIST 报告在这个时间节点发布,其隐含的政策信息很清晰:即使中国的开源模型在全球范围内被广泛采用,美国政府想要建立一种叙事——这些模型在安全性和可靠性上存在系统性缺陷,使用它们意味着承担显著的风险。
这种叙事是否完全基于客观的技术评估?答案可能是复杂的。NIST 作为一个技术标准机构,其评测方法论通常具有较高的可信度。但评测的维度选择、权重分配和结论的措辞方式不可避免地受到政策环境的影响。例如,”叙事回响率”这个指标本身就带有政治判断色彩——任何人工智能模型在训练数据中都不可避免地包含特定社会和文化的偏见,只是偏见的方向和程度不同而已。
对于全球各地的技术决策者来说,NIST 报告最重要的价值可能不是其具体的分数和排名,而是它提供的思维框架:在评估任何人工智能模型时,不应只看基准测试分数和价格标签,还必须深入考察安全对齐的稳健性、对抗性攻击的抵御能力和输出内容中可能存在的系统性偏见。这些维度在当前的模型选择决策中被严重低估了。
中国 AI 的静悄悄逆转:4.69 万亿 Token 的另一个故事
具有讽刺意味的是,就在 NIST 发布批评 DeepSeek 报告的同一周,另一组数据显示中国人工智能模型在全球推理市场的实际使用量正在加速增长。
来自 OpenRouter 平台的数据显示,中国人工智能模型——包括小米的 MiMo-V2-Pro、阶跃星辰的 Step 3.5 Flash、MiniMax 的 M2.5、DeepSeek V3.2 和智谱的 GLM5 Turbo——在过去一周的总 API 调用量达到了 4.69 万亿个 token,连续第三周超越美国模型的使用量。
这组数据与 NIST 报告形成了一种深层的张力。美国官方的评估说中国模型质量不如美国模型、安全性远逊于美国模型、甚至成本优势也没有宣传的那么大——但全球开发者的实际行为正在用真金白银投票给中国模型。这种”质量评分”和”市场份额”之间的脱节,才是 2026 年人工智能竞争中最值得关注的信号。
一种解释是:NIST 评估的维度(安全对齐、对抗性稳健性、政治偏见)与大多数实际部署场景中开发者最关心的维度(成本、速度、基本功能可用性)之间存在系统性的错配。就像消费者选择手机时更在意价格和拍照效果而非操作系统的安全更新频率一样,人工智能模型的用户在做选择时,安全性报告的影响力远不如价格标签和同事的推荐。
另一种解释是:中国模型的用户群体和美国模型的用户群体在很大程度上是不同的群体。美国顶尖模型的核心用户集中在北美和西欧的大型企业,这些企业有严格的安全合规要求和充足的预算。中国模型的增长主要来自亚太、中东、非洲和拉美地区的开发者和中小企业,这些用户对安全合规的敏感度较低,对价格的敏感度则高得多。如果这种地域性分化持续下去,全球人工智能市场可能出现一种类似于智能手机市场的”双层格局”——高端市场由美国模型主导,大众市场由中国模型主导。
大多数人没看到的:安全性差距可能是暂时的,生态位差距可能是永久的
围绕 NIST 报告的讨论大多集中在 DeepSeek 的安全缺陷上。但从更长的时间尺度来看,安全性差距可能是所有差距中最容易弥补的。安全对齐本质上是一个工程问题——通过更严格的人类反馈训练、更全面的红队测试和更精细的输出过滤,94% 的越狱成功率可以被大幅降低。历史上已经有先例:OpenAI 的早期模型同样存在严重的安全漏洞,但通过持续的对齐研究和工程改进,当前的安全水平已经远非当初可比。
真正难以弥补的差距不在技术层面,而在生态层面。如果中国模型在全球大众市场建立了强大的开发者生态——社区、教程、集成工具、成功案例——那么即使美国模型在安全性和性能上持续领先,也可能在很大一部分全球市场中失去竞争力。就像 Android 系统在安全性和流畅度上长期不如 iOS,但凭借开放性和价格优势占据了全球超过 70% 的智能手机市场份额。
NIST 报告试图通过权威评估来为中国模型的全球扩张设置认知障碍。但历史反复证明,消费者和开发者的行为更多地被”可获取性和价格”驱动,而非被”安全评估报告”左右。在这场关于全球人工智能市场控制权的博弈中,69 页的技术报告能产生多大的实际影响,可能取决于它背后是否有配套的政策行动——比如更严格的出口管制、更高的合规门槛,或者更有竞争力的替代方案补贴。
否则,它可能只是一声回响在政策走廊中的警告,而全球市场的列车已经驶向了另一个方向。
参考资料
- NIST 发布 69 页 DeepSeek 评估报告 — IP Finance / NIST CAISI, 2026-03-24
- 中国 AI 模型周 API 调用量达 4.69 万亿 tokens——连续第三周超越美国 — 来源: OpenRouter 数据 / The Million Dollar Way, 2026-03-23
- AWS Trainium 被定位为 AI 芯片”最危险新入者”——”Big 5”格局形成 — The Million Dollar Way, 2026-03-23
- GPT-5.4 vs Claude Opus 4.6 vs Gemini 2.5 横评 — AIMagicX Blog, 2026-03-23