差距在收窄，而且比预期快：解读中国AI的真实追赶速度

2026年6月22日，《纽约时报》发出了一个让硅谷不舒服的问题：中国AI正在缩短与美国领先模型的差距，而且速度超过了大多数西方分析师的预期。这不是一篇充满警告意味的地缘政治评论，而是一篇基于基准测试数据的技术分析。它的不舒服之处恰恰在于：它没有夸张，只是描述了正在发生的事实。

同一天，另一件事也在发生：Z.ai（智谱AI）发布了GLM-5.2，在多项主流基准测试上逼近Claude和GPT-5系列，并采用MIT许可证完全开源。这个时间节点不是巧合——这是Anthropic旗下Claude系列产品因地缘政治原因对中国用户限制访问的同一周。一边是封闭，一边是开放；一边是限制，一边是追赶。这两条线索交织在一起，构成了2026年中期AI竞争格局最具戏剧性的切面。

本文试图回答3个问题：差距究竟在多大程度上收窄了？为什么收窄了？以及，当差距消失后，”领先”这个词还意味着什么？

一、基准测试说了什么，又没说什么

先看数据层面发生了什么。

根据《纽约时报》2026年6月22日的分析，来自Z.ai、DeepSeek和百度的中国AI模型，在主流基准测试上与美国前沿模型的差距收窄速度，超过了西方分析师群体的主流预期。（来源：The New York Times，2026-06-22）这个表述本身需要被仔细拆解，因为”超过预期”是一个相对判断——它的基准是什么样的预期？

在此之前，硅谷的主流叙事是：H100和H800出口禁令将从根本上限制中国AI实验室的训练算力，从而在模型能力上制造一个难以逾越的结构性差距。这个逻辑看起来合理——更多算力等于更大模型，更大模型等于更强能力，这是Scaling Law的基本逻辑。如果中国实验室无法获得足够的高端GPU，它们在Scaling Law这条赛道上就会系统性落后。

但GLM-5.2的出现打破了这个叙事。根据Z.ai官方技术报告（2026-06-22）自报数据，尚未经独立第三方完整验证，以下具体分数均应视为”初步报告值”而非”已确认值”：GLM-5.2在MMLU（大规模多任务语言理解）上取得了约90.1%的得分；Claude最新系列（以下以”最新Claude系列”指代，具体版本名称以Anthropic官方公告为准）在同一基准上的得分约为91.2%；GPT-5的得分约为91.8%——差距已经从2024年初的8-10个百分点压缩到了不足2个百分点。在MATH（数学推理基准）上，据Z.ai官方技术报告（2026-06-22）自报数据，尚未经独立第三方完整验证，GLM-5.2的得分达到78.6%，DeepSeek-V3达到79.2%，而GPT-5为81.3%。在HumanEval（代码生成基准）的pass@1指标上，据Z.ai官方技术报告（2026-06-22）自报数据，尚未经独立第三方完整验证，GLM-5.2达到了88.7%，与最新Claude系列的89.4%和GPT-5的90.1%几乎持平。（来源：Z.ai官方技术报告，2026-06-22；LMSYS Chatbot Arena排行榜，2026年6月数据）

重要说明：上述GLM-5.2的基准分数来自Z.ai官方技术报告的自报数据，发布时间距今不足一周，尚未经独立第三方完整验证。虽然LMSYS Chatbot Arena的ELO排名（基于用户盲测）提供了部分独立验证，但完整的第三方复现结果尚需数周时间才能获得。读者应将这些具体数字视为”初步报告值”而非”已确认值”。历史经验表明，模型发布方的自报分数与后续独立测试之间通常存在1-3个百分点的偏差。

即便考虑这一偏差区间，这些数字的趋势意义仍然成立：2024年初，中国最好的模型在MMLU上大约落后美国前沿模型8-10个百分点；到2025年中，这个差距缩小到4-5个百分点；到2026年6月，差距已经处于1-4个百分点的区间内。这是一条加速收敛的曲线。

与此同时，DeepSeek-V3在多项推理基准测试上已经与GPT-5系列持平甚至略有超越。在GSM8K（小学数学推理）上，DeepSeek-V3达到97.1%，GPT-5为97.3%；在ARC-Challenge（科学推理）上，DeepSeek-V3达到96.8%，GPT-5为97.0%。这些数据点尤其具有挑战性，因为推理能力一直被认为是美国前沿模型最难被复制的核心优势之一。需要指出的是，GSM8K和ARC-Challenge的分数已经接近测试天花板（97%+），在这个区间内的分差可能更多反映的是评测噪声而非真实能力差异。

当然，基准测试本身是有争议的评估框架。这里需要呈现两个对立的解读视角：

视角A（差距真实收窄）：MMLU、MATH、HumanEval、GSM8K等主流基准测试虽然不完美，但它们是目前最具可比性的跨模型评估工具。当中国模型在5个以上独立基准上同时逼近美国前沿模型，且差距从8-10个百分点压缩到不足2-4个百分点，这不太可能是单纯的”基准测试优化”所能解释的。LMSYS Chatbot Arena的ELO评分——一个基于真实用户盲测的排名系统——同样显示GLM-5.2和DeepSeek-V3已经进入全球前5。忽视这些数据，是一种选择性认知。

视角B（基准测试被过度解读）：基准测试可以被针对性优化（benchmark gaming），高分不等于真实世界能力。美国前沿实验室在多模态融合、长上下文窗口（100万+ token）、复杂工具调用、多步Agent推理等维度上可能仍然保持显著领先，而这些能力在标准基准测试中并不能被充分捕捉。差距可能只是从”显而易见”变成了”不那么显而易见”。此外，基准测试的”天花板效应”意味着当所有模型都接近满分时，分数差距的缩小可能夸大了实际能力差距的缩小程度。

我的判断是：两个视角都包含真相，但第一个视角在当前时间点更接近核心问题。基准测试的局限性是真实的，但它不能被用来系统性地否定所有来自中国模型的正面数据。当GLM-5.2在MMLU、MATH、HumanEval、GSM8K、ARC-Challenge等多个独立基准上同时逼近最新Claude系列和GPT-5系列，当LMSYS Arena的真实用户盲测同样确认这一趋势，当这一现象引发硅谷AI社区的真实关注——这不是基准测试游戏，这是能力收敛的信号。

二、为什么差距在收窄：技术机制的解剖

理解”差距为什么在收窄”比理解”差距收窄了多少”更重要，因为前者决定了这个趋势是否可持续。

MoE架构：用效率对冲算力劣势

GLM-5.2采用了MoE（Mixture of Experts）架构，总参数量约为1.4万亿（1.4T），但每次推理仅激活约280亿（28B）参数——激活比例约为2%。（来源：Z.ai官方技术报告，2026-06-22；该数据为Z.ai自报，尚未经独立第三方完整验证）这个技术选择不是偶然的。MoE架构的核心优势在于：在参数总量相同的情况下，每次推理只激活一部分专家网络，从而在计算效率上获得显著优势。换句话说，MoE是一种”用聪明的设计换算力”的策略。

对比来看，GPT-5被广泛推测采用了密集（Dense）或混合架构（OpenAI未公开确认其具体架构），外部分析师基于推理延迟和API定价推测其总参数量约在1.8-2万亿之间。需要强调的是，GPT-5的架构细节属于推测性信息，OpenAI从未公开披露其模型的具体参数量或架构类型。 如果这一推测成立，GLM-5.2在达到接近GPT-5能力水平的同时，推理计算量可能仅为后者的约1/5到1/7。这个效率差距在商业化部署上是直接的竞争优势——同等算力下，GLM-5.2理论上可以服务5-7倍的并发用户。

对于面临芯片供给约束的中国AI实验室来说，MoE架构具有双重价值：第一，训练同等能力水平的模型所需的计算量更少（尽管MoE训练的通信开销更大，但总体FLOPs需求仍然更低）；第二，推理成本更低，这在商业化部署上是直接的竞争优势。DeepSeek此前在MoE架构上的探索——特别是DeepSeek-V2的MoE设计在2024年引发了全球AI社区的广泛关注——GLM-5.2的出现说明这条技术路线在中国实验室群体中已经形成了系统性积累。

这里有一个被大多数分析忽视的技术-政策交叉点：出口管制在客观上加速了中国AI实验室在算法效率方向上的投入。 当你无法简单地用更多算力堆出更好的模型，你就必须在算法层面更聪明。这不是说出口管制帮助了中国AI——而是说，单纯的算力限制在面对足够强的算法创新动机时，其效果会被部分对冲。经济学中有一个类似的概念叫”诱致性创新”（induced innovation）：约束条件的改变会引导创新方向的转移。芯片禁令就是这样一种约束条件的改变。

开源学习的知识溢出效应

GLM-5.2采用MIT许可证完全开源，模型权重、训练代码和技术报告全部公开。（来源：Z.ai GitHub仓库，2026-06-22）这个决策在技术层面意味着什么？

开源不只是一个商业策略，它也是一种学习机制。当Meta发布Llama 3.1（4050亿参数），当DeepSeek开源其V2和V3模型权重，全球AI社区——包括中国的研究者——都可以直接研究这些模型的架构细节、训练技巧和推理行为。这种知识溢出是双向的，但在当前阶段，它对追赶者的价值大于对领先者的价值。原因很简单：领先者从追赶者的开源中获得的边际知识增量较小，而追赶者从领先者的开源中可以直接获得架构设计和训练方法论的参考。

更重要的是，GLM-5.2选择在这个时间点开源，本身就是一种战略信号：Z.ai有足够的信心认为其技术已经达到了值得公开分享的水平，同时通过开源来建立全球开发者生态——这是一个典型的”以开放换影响力”的技术外交策略。据Z.ai官方公告及GitHub Trending页面显示，发布后48小时内，GLM-5.2在GitHub上获得了超过15,000个star，HuggingFace上的模型下载量超过50万次。（来源：GitHub Trending，2026-06-23；Z.ai官方公告，2026-06-22）需要说明的是，GitHub star和下载量数据在发布初期波动较大，且可能包含自动化工具的贡献，应视为量级参考而非精确指标。

华为昇腾：算力替代方案的成熟度

MIT Technology Review的分析指出，中国AI实验室正在通过华为昇腾（Ascend）芯片、云端访问和算法效率改进来适应H100/H800禁令的影响。（来源：MIT Technology Review，2026-06-15）

具体来看，华为昇腾910B的FP16算力约为320 TFLOPS，而英伟达H100的FP16算力约为990 TFLOPS——单芯片性能差距约为3倍。但这个差距需要放在系统层面来理解：华为在2025年底推出的昇腾910C据行业报道将FP16性能提升至约500 TFLOPS（该数据来自行业分析师估算，华为未公开披露完整规格表，目前无法独立验证，但……差距缩小到约2倍的量级判断在多个独立分析中得到交叉参照）。更重要的是，当MoE架构将训练和推理的计算需求降低5-7倍时，芯片性能的2-3倍差距就不再是不可逾越的障碍。

华为昇腾的另一个关键进展是软件生态的成熟。CANN（Compute Architecture for Neural Networks）框架在2025-2026年间的迭代速度明显加快，对PyTorch的兼容性大幅改善，使得从CUDA迁移到昇腾的工程成本显著降低。据华为2026年Q1财报披露，昇腾AI芯片的出货量同比增长超过200%，累计部署超过100万片。（来源：华为2026年第一季度财务报告，2026-04-28）

但需要指出一个重要的限制条件：单芯片性能差距只是问题的一个维度。大规模训练集群的互联带宽、通信效率和系统稳定性同样关键。多位接触过昇腾集群的工程师在公开技术论坛上反映，昇腾在千卡以上规模训练时的系统稳定性和调试效率仍与NVIDIA A100/H100集群存在差距。这意味着”芯片性能差距缩小到2倍”不能直接等同于”系统级训练能力差距缩小到2倍”。

当然，”存在差距”和”无法使用”之间有巨大的空间。当算法效率提升到足以部分抵消芯片性能差距时，整体训练效果的差距就会被压缩。GLM-5.2和DeepSeek系列的基准测试表现，正是这种压缩的直接体现。

三、出口管制的真实效果：一个被误读的政策工具

现在进入最具争议性的问题：H100/H800出口禁令到底有没有用？

这个问题在华盛顿的政策圈和硅谷的技术圈之间存在截然不同的答案，而两者的分歧根源在于：他们在评估”有没有用”时，使用的是不同的成功标准。

政策制定者的逻辑

出口管制的设计逻辑是：通过限制高端GPU的供给，从根本上限制中国AI实验室的训练算力上限，从而在模型能力上制造一个持续扩大的结构性差距。这个逻辑的前提假设是：算力是AI能力的主要瓶颈，且这个瓶颈无法通过算法创新被有效绕过。

MIT Technology Review的分析对这个假设提出了质疑：中国AI实验室正在通过多种途径适应芯片禁令，包括使用华为昇腾芯片、通过第三方云服务访问受限算力，以及在算法层面大幅提升效率。差距的收窄表明，仅靠出口管制本身不足以维持所期望的能力差距。（来源：MIT Technology Review，2026-06-15）

美国商务部工业与安全局（BIS）在2024年10月更新的出口管制规则中，进一步收紧了对中国的芯片出口限制，将性能阈值从此前的A100级别进一步下调。但从2024年10月到2026年6月——不到两年时间——中国前沿模型在基准测试上的差距反而加速收窄。这个时间线本身就是对”出口管制可以阻止追赶”这一假设的最直接反驳。

出口管制的真正目的：一个被低声说出的解读

这里有一个大多数公开分析不愿直说的观点：出口管制的真实目的，可能从来就不是”阻止中国AI追赶”，而是”减缓追赶速度”，以及——更重要的——”在战略性应用领域（军事AI、监控AI、关键基础设施AI）保持可量化的能力优势”。

如果用”阻止追赶”作为成功标准，出口管制显然正在失效——GLM-5.2和DeepSeek的表现已经说明了这一点。

但如果用”减缓追赶速度”和”在特定应用领域保持优势”作为成功标准，评估就变得更加复杂。一个合理的反事实问题是：如果没有H100/H800禁令，中国AI的追赶速度会更快吗？答案几乎可以肯定是”是的”。根据Epoch AI的估算，中国AI实验室在2025年可用的总训练算力约为美国同行的30-40%——如果没有出口管制，这个比例据推测可能在60-70%。（来源：Epoch AI，2025年年度报告《Trends in Machine Learning Compute》，2026-01-15）需要说明的是，Epoch AI的估算基于公开可获取的数据和模型推断，具体数字存在较大不确定性区间（±10-15个百分点），但其揭示的量级关系——出口管制约将中国可用算力减半——在多个独立分析中得到了交叉验证。

这意味着出口管制确实在算力维度上制造了显著的约束。但”减缓了追赶”和”阻止了追赶”之间的差距，正是当前政策效果评估中最大的认知分歧所在。

还有第三个目的，更少被公开讨论：出口管制是一种谈判筹码，而不仅仅是一种技术封锁工具。它的存在让美国在AI治理、数据共享、模型安全标准等议题上的多边谈判中拥有更多的筹码。这个维度的价值与模型能力差距的大小关系不大。

两个对立视角的综合

视角A（出口管制正在失效）：GLM-5.2和DeepSeek的基准测试表现证明，算法创新可以在相当程度上对冲算力劣势。随着华为昇腾生态的持续成熟和MoE架构的系统性应用，芯片禁令的边际效果将继续递减。出口管制是一个正在漏水的大坝。英伟达CEO黄仁勋在2025年多次公开表示，出口管制正在”帮助中国建立自己的芯片产业”——这个来自芯片行业最重要玩家的判断不应被忽视。

视角B（出口管制仍然有价值）：即使在通用基准测试上差距收窄，在需要极大规模训练算力的特定任务（如超大规模多模态训练、长期强化学习、超长上下文窗口训练）上，算力差距仍然会转化为能力差距。OpenAI据报道正在训练的下一代模型使用了超过10万张H100的集群——这种规模的训练在当前的昇腾生态中尚难以复制。出口管制的价值在于维持这个”高端算力墙”，而不是在所有维度上保持领先。

我的判断是：出口管制作为单一政策工具，其有效性已经被证明是不充分的。MIT Technology Review的分析明确指出，差距的收窄表明仅靠出口管制本身不足以实现既定目标。这不意味着出口管制毫无价值，但它意味着：如果美国的战略目标是在AI能力上保持可持续的领先优势，出口管制必须与其他政策工具组合使用——包括加速本土AI研发投入（如2025年通过的《国家AI基础设施法案》拨款250亿美元）、建立更强的开源生态、以及在AI标准制定上保持主导权。

四、大多数人没看到的东西：这是一场关于效率的革命，不是追赶

现在进入第三层洞察——大多数分析没有触及的地方。

主流叙事框架是这样的：中国AI在追赶美国AI，差距在收窄，这是一场能力竞赛。这个框架本身没有错，但它遮蔽了一个更重要的结构性变化：中国AI实验室正在做的，不只是”用更少的资源复制美国的成果”，而是在客观约束下，开创了一套不同的技术路径——而这套路径可能在某些维度上比原版更高效。

具体来说：MoE架构、更高效的训练算法（如DeepSeek提出的Multi-Head Latent Attention）、更激进的开源策略，这些不只是”在芯片不够的情况下的次优选择”，它们正在成为全球AI技术栈的重要组成部分。当DeepSeek-V2的MoE架构在2024年引发硅谷的广泛关注和学习——Google的Gemini团队和Meta的Llama团队都在后续版本中借鉴了类似的稀疏激活设计——当GLM-5.2的MIT开源许可让全球开发者可以直接构建在其之上，中国AI实验室已经不再只是”接受者”——它们正在成为某些技术方向上的”输出者”。

这个转变有一个更深层的含义：它正在改变全球AI研发的”效率前沿”（efficiency frontier）。 在2023年之前，AI能力的提升主要依赖规模扩展——更多数据、更多参数、更多算力。这条路径的问题在于它的边际收益递减：从GPT-3到GPT-4，算力增加了约10倍，但能力提升远不到10倍。中国实验室在算力约束下被迫探索的”效率优先”路径——MoE、知识蒸馏、更高效的注意力机制——实际上可能代表了AI发展的下一个范式。

这不是一个全新的观察——Sutton的”苦涩教训”（The Bitter Lesson）论证了计算规模最终胜过人类设计的巧妙，而中国实验室的经验似乎在提供一个反向数据点：当规模扩展受到外部约束时，巧妙的设计可以在相当程度上替代规模。 这两个观察并不矛盾——它们共同指向一个更完整的图景：最优路径可能是”聪明的规模扩展”，即在高效架构上进行规模扩展。

这个转变的商业含义是深远的。当一个中国模型在基准测试上与美国前沿模型持平，同时推理成本仅为后者的约1/5到1/7（基于MoE架构的激活参数比例推算，具体商业定价还需考虑基础设施成本、运营成本等因素），它实际上在做的是：重新定义”前沿”的含义。在商业化部署中，一个性能相当但成本低5倍的模型，其实际竞争力远超一个性能略强但成本高昂的模型。这就是为什么GLM-5.2的API定价（据Z.ai官方公告，约为同等能力级别美国模型API价格的1/4到1/3；该定价信息来自Z.ai自报，具体价格可能随市场情况调整）对全球开发者具有如此强的吸引力。

还有一个维度几乎没有被讨论：约束驱动的创新一旦形成路径依赖，即使约束解除，创新方向也不会回退。 即使未来某一天出口管制被放松，中国AI实验室已经在算法效率方向上积累的技术优势不会消失——它们会叠加在更多算力之上，产生更大的能力跃升。这是出口管制最大的长期风险：它可能在短期内减缓了追赶，但在长期内培育了一个在效率维度上更强的竞争对手。

五、Anthropic服务限制与GLM-5.2开源：同一周的历史性对撞

这一节需要单独展开，因为它揭示了一个超越技术层面的结构性矛盾。

2026年6月第三周，Anthropic因合规要求进一步限制了Claude系列产品对中国大陆用户的访问。同一周，GLM-5.2以MIT许可证向全球开源。（来源：The New York Times，2026-06-22；Z.ai官方

差距在收窄，而且比预期快：解读中国AI的真实追赶速度

差距在收窄，而且比预期快：解读中国AI的真实追赶速度

一、基准测试说了什么，又没说什么

二、为什么差距在收窄：技术机制的解剖

MoE架构：用效率对冲算力劣势

开源学习的知识溢出效应

华为昇腾：算力替代方案的成熟度

三、出口管制的真实效果：一个被误读的政策工具

政策制定者的逻辑

出口管制的真正目的：一个被低声说出的解读

两个对立视角的综合

四、大多数人没看到的东西：这是一场关于效率的革命，不是追赶

五、Anthropic服务限制与GLM-5.2开源：同一周的历史性对撞

About

Categories

Recent Posts

Resources