2025 年 6 月,据两位参加华为面向中国头部云厂商闭门技术沟通会的知情人士透露,华为首次完整展示了 Ascend 950(2026)、Ascend 960(2027)、Ascend 970(2028)三代 AI 芯片路线图,并明确提出单芯片间互连带宽将在 970 一代达到 2Tbps 级别。这一信息随后被多家中国科技媒体交叉印证,但华为官方尚未公开确认完整路线图细节。这是自 2019 年华为被列入美国商务部实体清单以来,中国 AI 芯片领域最具野心的技术规划。

把这组数字放到全球坐标系里看:NVIDIA 当前旗舰 Blackwell B200 的 NVLink 5.0 单 GPU 互连带宽为 1.8Tbps,下一代 Rubin 架构(预计 2026 年)将搭载 NVLink 6.0。根据 NVIDIA 在 GTC 2025 Keynote 上披露的架构演进信息以及多家分析机构的推算,NVLink 6.0 的双向带宽预计将达到约 3.6Tbps 级别,但 NVIDIA 尚未发布该数字的正式 spec sheet(来源: NVIDIA GTC 2025 Keynote, 2025-03-18;ServeTheHome 技术分析, 2025-03-19)。华为 2028 年的 2Tbps 目标,大致对标 NVIDIA 2025 年末至 2026 年初的水平。这意味着即使路线图完美执行,华为在互连带宽这一维度上仍将落后 NVIDIA 约 2 至 3 年。

但”落后 2 至 3 年”这个判断本身就值得深入拆解。因为在制裁体系下,中国 AI 产业面对的核心问题从来不是”能否追平 NVIDIA”,而是”能否建成一套虽非最优但足够自洽的独立算力体系”。这篇文章要回答的正是这个问题:华为 Ascend 三代路线图的技术可行性、商业可持续性,以及它对全球 AI 算力格局的真实影响。


1. 制裁的精确切面:华为到底被卡在哪里

要理解 Ascend 路线图的意义,必须先厘清制裁的实际约束边界。美国对中国 AI 芯片的出口管制经历了 3 轮关键升级:

  • 2022 年 10 月:美国商务部工业与安全局(BIS)发布首版 AI 芯片出口管制规则,以算力密度(performance density)和互连带宽为核心指标,禁止向中国出口超过 4800 TOPS(INT8)或互连带宽超过 600GB/s 的芯片(来源: U.S. Federal Register, 2022-10-07)。
  • 2023 年 10 月:BIS 更新规则,将管制阈值大幅收紧至 2400 TOPS 以下的”总处理性能”(TPP)标准,并首次将先进封装设备纳入管控范围,直接针对 NVIDIA 为中国市场定制的 A800/H800 芯片(来源: Bureau of Industry and Security Final Rule, 2023-10-17)。
  • 2025 年 1 月:拜登政府在任期最后阶段发布”AI 扩散框架”(AI Diffusion Framework),将全球国家分为 3 个层级,中国被列入最严格的第 3 层级,不仅芯片受限,连云端 AI 算力的远程访问也被纳入管控范围(来源: White House Fact Sheet on AI Diffusion, 2025-01-13)。

这 3 轮管制的叠加效应,使得华为面临的约束并非单一的”买不到先进芯片”,而是一个多层嵌套的技术封锁体系:

第 1 层:制造工艺。华为海思(HiSilicon)设计的芯片无法在台积电(TSMC)流片。当前华为 Ascend 910B/910C 芯片由中芯国际(SMIC)代工,使用的是 7nm 级别工艺(SMIC 官方称为 N+2)。这一工艺在良率、功耗和晶体管密度上,与台积电 N4/N3 存在代际差距。根据 TechInsights 对 Ascend 910B 的逆向工程分析,其实际晶体管密度约为 60MTr/mm²(来源: TechInsights, 2024-03-15)。作为对比,台积电 N4P 工艺的晶体管密度约为 120MTr/mm²(来源: 台积电 2023 技术研讨会公开资料;WikiChip 工艺节点数据库)。

第 2 层:EDA 工具与 IP 核。华为无法使用 Synopsys、Cadence、Siemens EDA 的最新版本工具链。国产 EDA 替代方案(如华大九天 Empyrean)在数字后端、物理验证等环节已具备部分能力,但在模拟混合信号设计、先进封装协同设计方面仍存在明显短板(来源: 华大九天 2024 年年报, 2025-04-28)。

第 3 层:先进封装。NVIDIA Blackwell 架构的核心竞争力之一是台积电 CoWoS-L 封装技术实现的双芯片互连。华为目前依赖的封装方案来自长电科技(JCET)和通富微电(TFME),其 2.5D/3D 封装能力与台积电 CoWoS 存在 1 至 2 代差距。

第 4 层:高带宽内存(HBM)。AI 训练芯片对 HBM 的依赖是刚性的。三星(Samsung)和 SK hynix 受管制约束无法向华为供货 HBM3/HBM3E。华为当前的 HBM 供应据产业链多方信息推测来自长鑫存储(CXMT),但长鑫的 HBM 产品据行业分析师估计仍处于 HBM2E 级别,带宽约 460GB/s/stack(来源: 该数据为产业链调研推测值,长鑫存储未公开披露具体 HBM 产品规格;作为对比,SK hynix HBM3E 官方标称带宽为 1.18TB/s/stack,来源: SK hynix HBM3E Product Brief, 2024-03-05)。

理解了这 4 层约束,才能真正评估 Ascend 950/960/970 路线图的技术含义——华为不是在”设计一颗芯片”,而是在试图在 4 个维度同时突破封锁,构建一个平行于 NVIDIA+台积电+SK hynix 的完整替代体系。


2. Ascend 910 系列现状:基线在哪里

在讨论未来 3 代产品之前,必须先锚定当前基线。

华为 Ascend 910B 于 2023 年下半年量产,Ascend 910C 于 2024 年下半年开始向头部客户交付。关于 910C 的算力数据,华为官网产品页(2024-09 版本)主要公布了 FP16 和 INT8 指标,并未直接列出 BF16 TFLOPS 数字。根据多家中国云厂商的实测反馈和第三方基准推算,910B 的单芯片 BF16 算力约为 256 TFLOPS,910C 约为 320 至 360 TFLOPS 区间(该区间反映了不同测试条件下的波动,非官方 spec)。作为对比,NVIDIA H100 SXM 的 BF16 Tensor Core 算力为 989 TFLOPS(不含稀疏加速;含 2:4 结构化稀疏加速后为 1979 TFLOPS)(来源: NVIDIA H100 Datasheet, 2023)。

单看算力数字,910C 的 BF16 算力(不含稀疏加速,因华为未公布对应的稀疏加速数据)大约是 H100(同样不含稀疏加速)的 1/3。但这个比较有两个重要的注解:

注解 1:实际利用率差距可能更大。NVIDIA 的 CUDA 生态经过 17 年迭代(CUDA 1.0 发布于 2007 年),其编译器优化、算子库(cuDNN、cuBLAS)、通信库(NCCL)的成熟度极高。华为的 CANN(Compute Architecture for Neural Networks)生态虽然在快速追赶,但在大规模分布式训练场景下,实际 MFU(Model FLOPs Utilization)通常比 NVIDIA 平台低 15% 至 30%。这一判断来自多个渠道的交叉验证:阿里云 PAI 团队在其技术博客中讨论了 Ascend 平台上的训练效率优化挑战(来源: 阿里云 PAI 团队技术博客, 2024-07),多位工程师在技术社区中也分享了类似的实测体验,但需注意这些数据点并非严格控制变量的基准测试结果。

注解 2:互连是比算力更关键的瓶颈。910B 的芯片间互连带宽约为 400Gbps(基于华为自研 HCCS 1.0 协议),910C 提升至约 600 至 800Gbps 区间。而 NVIDIA H100 的 NVLink 4.0 提供 900GB/s(即 7.2Tbps)的双向带宽。在千卡以上规模的大模型训练中,互连带宽不足导致的通信瓶颈,往往比单芯片算力不足造成的影响更大。这也是为什么华为在 970 路线图中将 2Tbps 互连作为核心指标来宣传——他们清楚地知道瓶颈在哪里。

当前 Ascend 910 系列的市场渗透情况也值得关注。根据 Counterpoint Research 的估算,2024 年中国 AI 加速器市场中,华为 Ascend 的出货量份额约为 15% 至 20%,NVIDIA(通过各种渠道流入的库存和合规产品)仍占据约 50% 以上份额(来源: Counterpoint Research China AI Chip Tracker, 2025-01,付费订阅内容)。华为的头部客户包括百度智能云、中国移动、中国电信、科大讯飞等,但阿里云、腾讯云、字节跳动等在选型上仍保持多元化策略,同时使用 Ascend 和通过各种途径获取的 NVIDIA 产品。


3. 三代路线图技术拆解:950/960/970

基于前述知情人士披露的信息片段,以及产业链上下游的交叉验证,以下是对 3 代产品的技术推演。需要强调,以下分析包含基于公开信息的合理推测,华为未公开确认全部细节。

Ascend 950(目标 2026 年)

制造工艺:预计仍由 SMIC 代工,但可能采用 SMIC 的 N+3 或下一代改进工艺。考虑到 EUV 光刻机的缺失(ASML 的 EUV 设备受荷兰政府出口管制无法出口至中国),SMIC 只能通过多重曝光(multi-patterning)在 DUV 光刻机上逼近 5nm 级别的等效密度。这一路径的核心挑战是良率和成本——多重曝光的掩模成本和工艺复杂度呈指数级上升。根据 TechInsights(原 IC Insights 已于 2023 年被 TechInsights 收购整合)的分析,DUV 多重曝光实现 5nm 等效密度的单片晶圆成本约为台积电 N5 的 1.5 至 2 倍(来源: TechInsights, 2024-06)。

算力目标:BF16 算力预计达到 500 至 600 TFLOPS 区间,通过架构优化(更大的 AI Core 矩阵单元、更高效的数据通路)和工艺微缩的双重驱动。这一水平大致对标 NVIDIA A100(BF16 624 TFLOPS with sparsity),但仍与 H100 存在明显差距。

互连:HCCS 2.0 协议,目标带宽 800Gbps 至 1Tbps。华为可能在 950 一代引入 CXL(Compute Express Link)兼容接口,以改善与 CPU(鲲鹏 Kunpeng 系列)和存储子系统的协同效率。

内存:大概率仍使用 HBM2E,但堆叠层数可能从 8-Hi 增加到 12-Hi,单芯片内存带宽目标约 1.5 至 2TB/s。如果长鑫存储能在 2025 年底前实现 HBM3 级别产品的量产验证,950 也有可能在后期批次切换到 HBM3。

Ascend 960(目标 2027 年)

制造工艺:这是路线图中最大的不确定性节点。到 2027 年,SMIC 是否能通过 DUV 多重曝光实现 3nm 等效密度,目前业界存在严重分歧。乐观派(以中国半导体产业协会部分专家为代表)认为,通过 4 重甚至 5 重曝光,理论上可以实现 3nm 级别的关键尺寸(critical dimension)。悲观派(以 ASML CEO Christophe Fouquet 在 2024 年投资者日上的表态为代表)则指出,超过 3 重曝光后,overlay 精度误差的累积将使良率急剧下降至商业不可行的水平(来源: ASML Investor Day Transcript, 2024-11-14)。

我的判断:960 更可能采用一种”混合策略”——在工艺微缩上保守推进至 5nm 改进版,但通过 chiplet(小芯片)架构和先进封装来弥补单芯片算力的不足。具体而言,华为可能将 2 至 4 个计算 die 通过 2.5D 封装(类似 AMD 的 EPYC 处理器 Infinity Fabric 架构)集成在一个封装内,从而在不突破工艺极限的前提下实现算力倍增。

算力目标:如果 chiplet 路线成功,封装级 BF16 算力可能达到 1 至 1.5 PFLOPS(即 1000 至 1500 TFLOPS),这将使其在纸面算力上接近 NVIDIA H100/H200 级别。

互连:HCCS 3.0,目标 1.2 至 1.5Tbps。chiplet 内部的 die-to-die 互连将是关键挑战——华为需要开发类似 NVIDIA NVLink-C2C 或 AMD Infinity Fabric 的高带宽、低延迟 die 间通信协议。

Ascend 970(目标 2028 年)

这是路线图中最具野心的一代。2Tbps 互连带宽的目标意味着华为计划在 970 上实现接近 NVIDIA 2025 至 2026 年旗舰产品的互连能力。

制造工艺:到 2028 年,华为的工艺选择将取决于一个关键变量——中国本土 EUV 光刻机的进展。中国科学院长春光学精密机械与物理研究所(长春光机所)和上海微电子装备(SMEE)一直在推进 EUV 光源和光刻系统的研发。根据公开的学术论文和专利申请,中国在 13.5nm EUV 光源功率方面已达到约 50 至 100W 级别(实验室条件),而 ASML 的量产型 EUV 光刻机(NXE:3600D)光源功率约为 500W 以上(来源: SPIE Advanced Lithography Conference Proceedings, 2024-02)。即使中国在 2026 至 2027 年实现 EUV 光源的重大突破,从实验室到量产的工程化周期通常需要 3 至 5 年,这意味着 970 大概率仍需在 DUV 体系下完成。

更可能的路径:970 将全面拥抱 chiplet + 先进封装路线,可能采用 4 至 8 个计算 die 的大规模集成方案,配合华为自研的 die-to-die 互连协议实现 2Tbps 的封装级互连带宽。这一架构设计的核心挑战不在于单个 die 的性能,而在于封装级的功耗管理(一个 8-die 封装的 TDP 可能达到 800W 至 1000W)和散热方案。

算力目标:封装级 BF16 算力可能达到 2 至 3 PFLOPS,如果 FP4/FP6 等低精度格式的支持足够成熟,推理场景下的等效算力将更高。


4. 被忽视的关键维度:软件生态与系统级竞争力

大多数对华为 Ascend 的分析都聚焦于芯片硬件指标的对比,但这恰恰忽视了 AI 算力竞争中最关键的维度——软件生态和系统级竞争力。

CANN vs. CUDA:不是追赶,而是另起炉灶

NVIDIA 的护城河从来不只是硬件。CUDA 生态包含编译器(nvcc)、数学库(cuBLAS, cuDNN, cuFFT)、通信库(NCCL)、推理引擎(TensorRT)、以及与 PyTorch/TensorFlow/JAX 等框架的深度集成。这个生态系统的 17 年积累,意味着全球数百万 AI 开发者的工作流都深度绑定在 CUDA 之上。

华为的 CANN 生态采取了一种务实但痛苦的策略:在底层自研,在上层兼容。CANN 的算子开发框架(AscendCL)与 CUDA 完全不同,但华为通过 MindSpore 框架和 PyTorch Ascend 插件(torch_npu),试图让开发者在不修改或少量修改代码的前提下将 PyTorch 模型迁移到 Ascend 平台。

根据华为昇腾社区的公开数据,截至 2025 年 Q1,CANN 生态已适配超过 1200 个常用算子,覆盖了 PyTorch 约 85% 的高频算子(来源: 华为昇腾社区官网, 2025-03)。但剩下的 15% 往往是长尾但关键的算子——例如某些自定义注意力机制(Flash Attention 的变体)、混合精度训练的特定路径等。在实际的大模型训练中,这些缺失算子会导致 fallback 到低效实现,从而拉低整体训练效率。

更深层的问题是调试和性能优化工具链的成熟度。NVIDIA 的 Nsight Systems/Compute 提供了从内核级到系统级的全栈性能分析能力,而华为的 Profiling 工具(MindStudio Profiler)在功能覆盖度和易用性上仍有明显差距。多位在 Ascend 平台上进行大模型训练的工程师在技术社区中反馈,定位性能瓶颈的效率比在 NVIDIA 平台上低 2 至 5 倍(来源: 该判断综合自多个中文技术社区的工程实践分享,属于定性观察而非严格基准测试结论)。

系统级竞争:不只是芯片

华为的一个独特优势在于它不仅仅是一家芯片公司,而是能够提供从芯片(Ascend)、服务器(Atlas 系列)、网络交换机(CloudEngine)、操作系统(openEuler/EulerOS)到 AI 框架(MindSpore)的全栈方案。这种垂直整合能力在某些场景下可以弥补单点技术的不足。

例如,华为 Atlas 900 训练集群采用了自研的 HCCS 互连 + RoCE v2 网络的混合拓扑,通过软硬件协同优化,在 1024 卡规模的 LLM 训练中实现了约 45% 至 50% 的 MFU(来源: 华为智能计算白皮书, 2024-11)。虽然这一数字低于 NVIDIA DGX SuperPOD 通常报告的 55% 至 60% MFU,但考虑到硬件基线的差距,这个系统级优化成果并不平凡。


5. 两个对立视角:独立体系的可行性之争

视角 A:乐观派——”够用就好”的务实路径

持这一观点的代表包括中国工程院院士倪光南、华为轮值董事长徐直军,以及部分中国 AI 创业公司的技术负责人。

核心论点:中国 AI 产业不需要追平 NVIDIA 的绝对性能,只需要建立一个”够用”的算力基座。理由如下:

  1. 中国 AI 应用的主战场是推理而非训练。百度、阿里、字节跳动等公司的大模型(文心一言、通义千问、豆包)已经完成了基础模型的训练,未来的算力需求将逐步从训练转向推理。推理对单芯片算力和互连带宽的要求显著低于训练,Ascend 910C 在推理场景下的性价比已经具备竞争力。根据百度智能云的内部测试,Ascend 910C 在 Llama 2-70B 推理任务中的 token/s/watt 效率约为 H100 的 70% 至 80%(来源: 百度智能云开发者大会技术分享, 2024-09)。

  2. 规模可以弥补效率。如果单芯片性能是 NVIDIA 的 1/3,那么部署 3 倍数量的芯片即可获得等效算力。中国在电力成本(尤其是西部地区的可再生能源电价低至 0.2 至 0.3 元/kWh)和数据中心建设成本方面具有优势,使得”以量补质”在经济上可行。

  3. 制裁创造了被保护的市场。讽刺的是,美国的出口管制实际上为华为创造了一个被保护的国内市场。中国政府机构、国有企业、关键基础设施运营商在采购 AI 算力时,正在被强制要求使用国产方案。这为华为提供了稳定的需求基座,使其有足够的收入来持续投入研发。

视角 B:悲观派——”代差陷阱”的结构性困境

持这一观点的代表包括 SemiAnalysis 创始人 Dylan Patel、前台积电研发副总裁林本坚(Burn Lin),以及部分匿名的中国半导体产业从业者。

核心论点:华为面临的不是一个可以通过努力缩小的”差距”,而是一个可能持续扩大的”代差陷阱”。理由如下:

  1. NVIDIA 的迭代速度在加快,而非放缓。从 A100(2020)到 H100(2022)到 B200(2024)到 Rubin(2026),NVIDIA 的产品迭代周期已从 2 年压缩至约 1.5 年,每代算力提升 2 至 3 倍。华为即使完美执行 950/960/970 路线图,每一代追赶的目标都在加速远离。Dylan Patel 在 2024 年的分析中指出,华为 Ascend 与 NVIDIA 的性能差距正在从”2 代”扩大到”2.5 至 3 代”(来源: SemiAnalysis, “China’s AI Chip Dilemma”, 2024-08,付费订阅内容)。

  2. Chiplet 路线并非免费午餐。多 die 封装虽然可以绕过单 die 面积的限制,但带来了巨大的封装复杂度、良率挑战和功耗开销。die-to-die 互连的能效(pJ/bit)通常比 die 内部互连高 5 至 10 倍,这意味着 chiplet 方案在能效比上天然劣势。对于需要部署数万甚至数十万芯片的大规模 AI 集群来说,能效比的劣势会被放大为巨大的电力成本差异。

  3. HBM 瓶颈可能是最难突破的环节。HBM 的制造涉及 TSV(硅通孔)、微凸点(micro-bump)、混合键合(hybrid bonding)等一系列精密工艺,全球仅 SK hynix、Samsung、Micron 3 家具备量产能力。长鑫存储虽然在追赶,但 HBM 的技术壁垒不仅在于 DRAM die 本身,更在于堆叠封装工艺。即使长鑫在 2026 至 2027 年实现 HBM3 级别产品的量产,其良率和成本竞争力仍是巨大问号。

  4. 软件生态的网络效应难以复制。CUDA 的护城河不是技术本身,而是围绕它形成的开发者社区、学术论文、开源项目和商业应用的网络效应。全球排名前 100 的 AI 研究机构中,超过 95% 的训练代码是基于 CUDA 编写的。华为 CANN 即使在中国市场实现广泛采用,也很难突破中国以外的市场,这限制了其生态的网络效应规模。

我的判断

悲观派的技术分析更准确,但乐观派的战略判断更接近现实。

原因在于:华为 Ascend 体系的成败,不应该用”能否追平 NVIDIA”来衡量,而应该用”能否支撑中国 AI 产业在未来 5 至 10 年的基本运转”来衡量。这两个问题的答案截然不同。

从纯技术角度看,华为与 NVIDIA 的差距确实在扩大。但从产业生态角度看,中国 AI 产业正在围绕 Ascend 的能力边界进行”适应性进化”——模型架构在向更低算力需求的方向优化(如 DeepSeek 的 MoE 架构在推理效率上的突破)、训练方法在向更高数据效率的方向演进、应用场景在向推理密集型而非训练密集型倾斜。

这不是追赶,而是分叉。 全球 AI 算力体系正在形成两个半独立的生态:一个以 NVIDIA+台积电+SK hynix 为核心,覆盖美国及其盟友市场;另一个以华为+SMIC+长鑫为核心,主要服务中国市场。两个体系之间的性能差距可能持续存在甚至扩大,但各自内部的自洽性都在增强。


6. 大多数人没看到的 3 个关键洞察

洞察 1:互连比算力更能定义 AI 芯片的代际

华为将 2Tbps 互连作为 970 的核心卖点,这个选择本身就透露了深刻的技术判断。

在大模型训练的 scaling law 驱动下,模型参数量从 GPT-3 的 1750 亿增长到 GPT-4 的估计万亿级别(OpenAI 从未官方确认 GPT-4 的具体参数量;广泛引用的”约 1.8 万亿参数、MoE 架构”说法最早来自 2023 年中的非官方泄露和 SemiAnalysis 等机构的推测分析,不确定性较高),再到下一代模型可能突破 10 万亿参数。当模型大到无法装入单芯片甚至单节点的内存时,训练效率就完全取决于芯片间的通信带宽和延迟。

NVIDIA 对此的回应是 NVLink 从 4.0(900GB/s)到 5.0(1.8TB/s)再到 6.0(预计约 3.6TB/s)的激进迭代,以及 NVSwitch 和 NVLink Network 的引入,将数百甚至数千个 GPU 连接成一个逻辑上的”超级 GPU”。

华为如果不能在互连带宽上缩小差距,那么即使单芯片算力追上来,大规模集群的实际训练效率也会被互连瓶颈严重拖累。2Tbps 的目标说明华为的架构团队清楚地认识到了这一点。但 2Tbps 在 2028 年面对的将是 NVIDIA 可能已经达到 7 至 10Tbps 级别的下一代互连——差距的绝对值实际上在扩大。

洞察 2:制裁的”时间税”效应

制裁对华为造成的最大伤害,不是静态的性能差距,而是动态的”时间税”——华为的每一代产品都需要额外投入大量时间和资源来解决本不应该存在的工程问题。

举例来说:在台积电流片的芯片,设计团队可以依赖成熟的 PDK(工艺设计套件)和丰富的 IP 核库,从设计到 tapeout 的周期通常为 12 至 18 个月。而在 SMIC 的非标准工艺上流片,华为海思需要与 SMIC 联合开发 PDK、验证 IP 核兼容性、解决良率问题,这可能将周期延长至 18 至 24 个月甚至更长。

这个”时间税”在每一代产品上都会被征收,其累积效应是:华为的产品迭代节奏被结构性地放慢了。即使华为的设计团队与 NVIDIA 同样优秀(这本身就是一个很强的假设),制造端的约束也会使其产品上市时间持续滞后。

洞察 3:真正的竞争不在芯片层面,而在集群和云服务层面

对于 AI 应用开发者来说,他们购买的不是芯片,而是算力服务。一个经过精心优化的 1024 卡 Ascend 910C 集群,在特定工作负载上的实际表现,可能优于一个配置不当的 512 卡 H100 集群。

华为深谙此道,这也是为什么它在推动 Ascend 芯片的同时,大力投入 Atlas 服务器、CloudEngine 网络、MindSpore 框架和华为云 AI 服务的全栈优化。华为云的 ModelArts 平台已经为超过 200 家中国企业提供了基于 Ascend 的 AI 训练和推理服务(来源: 华为云官网 ModelArts 客户案例, 2025-05)。

这意味着评估华为 Ascend 竞争力的正确维度,不是”910C vs. H100”的芯片对芯片比较,而是”华为云 AI 服务 vs. AWS/Azure/GCP AI 服务”的系统对系统比较。在这个维度上,华为的差距虽然仍然存在,但远没有芯片层面那么大。


7. 对不同利益相关者的影响:So What?

对中国 AI 公司

短期(2025-2026):Ascend 910B/910C 加上通过各种渠道获取的 NVIDIA 存量芯片,足以支撑当前规模的大模型训练和推理部署。但如果你的业务需要训练下一代万亿参数级别的基础模型,Ascend 平台的效率劣势将是一个实质性约束。

中期(2027-2028):Ascend 960/970 如果按计划交付,将为中国 AI 公司提供一个性能可接受的国产替代方案。但”可接受”不等于”最优”——在全球竞争中,算力效率的差距可能转化为模型迭代速度的差距,进而影响产品竞争力。

战略建议:采用”双轨策略”——在 Ascend 平台上建设核心算力基座以确保供应链安全,同时在模型架构和训练方法上进行创新以降低对绝对算力的依赖。DeepSeek 的 V3 模型用相对较少的算力(据报道约 2048 张 H800,训练成本约 560 万美元)实现了与 GPT-4 可比的性能(来源: DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024-12),证明了算法创新可以部分弥补算力差距。

对 NVIDIA

华为 Ascend 的崛起对 NVIDIA 的直接财务影响有限。NVIDIA 在其年度财报中按地区披露收入,其中”China including Hong Kong”类别的数据中心收入占比已显著下降。根据 NVIDIA FY2025 年报(截至 2025 年 1 月的财年),中国相关收入在数据中心业务中的占比已从此前高峰期的约 20%-25% 下降至明显更低的水平,多家分析机构估计约在 10%-15% 区间(来源: NVIDIA FY2025 10-K Filing, 2025-02-26;需注意 NVIDIA 10-K 按地区而非国家披露,精确的中国单独占比需要从区域数据中推算)。

但间接影响更为深远:一个独立于 CUDA 的 AI 软件生态的出现,长期来看可能削弱 NVIDIA 的全球生态垄断地位。如果中国的 AI 开发者社区(全球最大的 AI 开发者群体之一)完全迁移到 CANN/MindSpore 生态,NVIDIA 的网络效应护城河将出现一个永久性的缺口。

对全球 AI 产业

最重要的结构性影响是 AI 算力体系的”分叉”(bifurcation)。这不仅仅是技术层面的分叉,更是标准、生态和供应链的分叉。当中国的 AI 模型和应用越来越多地在 Ascend 平台上开发和优化时,它们与全球(主要是 NVIDIA 平台)AI 生态的互操作性将逐步降低。这可能导致全球 AI 技术发展出现两条平行但不完全兼容的路径——类似于冷战时期美苏两套航天技术体系的格局。

对投资者

华为 Ascend 供应链中的关键上市公司值得关注:SMIC(0981.HK)、长电科技(600584.SH)、华大九天(301269.SZ)。长鑫存储目前未上市,其母公司合肥长鑫集成电路有限公司的间接关联标的需要谨慎评估。这些公司的估值将越来越多地与华为 Ascend 路线图的执行进度挂钩。但需要注意的是,制裁的不确定性意味着路线图的执行风险远高于正常水平——任何一次制裁升级(例如将 SMIC 的 DUV 设备供应纳入管控)都可能导致路线图延迟甚至重置。


8. 结论:一场没有终点的马拉松

华为 Ascend 950/960/970 三代路线图,是中国 AI 算力独立化进程中最重要的技术锚点。它不完美——性能落后 NVIDIA 2 至 3 代,软件生态尚不成熟,制造端受制于 SMIC 的工艺极限。但它存在,而且在持续迭代,这本身就是一个在 2019 年制裁初期很少有人预料到的事实。

回到开头的问题:从 2019 年实体清单算起已经 6 年,中国 AI 算力独立体系走到哪了?

答案是:它已经走过了”能不能做”的阶段,进入了”做得好不好”的阶段。 这是一个质的变化。华为 Ascend 不再是一个实验室项目或政策工程,而是一个有真实客户、真实收入、真实技术迭代的商业产品线。它的存在改变了中国 AI 产业的底层博弈结构——从”完全依赖进口”变为”有替代选项但需要承受效率损失”。

但这场马拉松没有终点线。只要美国维持并升级对中国的芯片出口管制,只要 NVIDIA 继续以当前的速度迭代,华为就必须在一个被人为设置了重重障碍的赛道上持续奔跑。Ascend 950/960/970 路线图展示的不是胜利的蓝图,而是一场持久战的作战计划。

这场持久战的最终结果,将不取决于任何单一技术突破,而取决于中国整个半导体产业链——从 EDA 到光刻机到先进封装到 HBM——的系统性进步速度,是否能快于美国制裁体系的收紧速度。这是一场体系与体系的竞争,而非芯片与芯片的竞争。

对于每一个在这个产业中工作、投资或决策的人来说,理解这场竞争的本质——不是追赶,而是分叉;不是单点突破,而是体系构建——是做出正确判断的前提。


参考资料

  1. NVIDIA GTC 2025 Keynote: Jensen Huang on Blackwell, Rubin and the Future of AI Computing — NVIDIA, 2025-03-18
  2. U.S. Export Controls on Advanced Computing and Semiconductor Manufacturing Items — U.S. Federal Register / Bureau of Industry and Security, 2022-10-07
  3. Updated Export Controls on Advanced Computing Chips and Semiconductor Equipment — Bureau of Industry and Security, 2023-10-17
  4. Fact Sheet: Biden-Harris Administration Takes Sweeping Action on AI Diffusion — The White House, 2025-01-13
  5. SK hynix Begins Volume Production of HBM3E — SK hynix Newsroom, 2024-03-05
  6. DeepSeek-V3 Technical Report — DeepSeek AI, 2024-12
  7. ASML Investor Day 2024 Transcript — ASML, 2024-11-14
  8. NVIDIA H100 Tensor Core GPU Datasheet — NVIDIA, 2023
  9. China’s AI Chip Dilemma — 来源: SemiAnalysis, 2024-08(付费订阅内容,无公开 URL)
  10. Counterpoint Research China AI Chip Market Tracker — 来源: Counterpoint Research, 2025-01(付费订阅内容;Counterpoint 官网 counterpoint.com 可查阅部分摘要)
  11. TechInsights Ascend 910B Die Analysis — 来源: TechInsights, 2024-03-15(付费订阅内容)
  12. TechInsights (原 IC Insights) DUV Multi-Patterning Cost Analysis — 来源: TechInsights, 2024-06(付费订阅内容;IC Insights 品牌已于 2023 年并入 TechInsights)

主题分类:ai-dlc