Uber押注Trainium3:大型互联网企业为何减少NVIDIA依赖,转向AWS自研芯片?
2026年4月7日,Uber宣布大幅扩大与AWS的云合同,将核心骑行调度功能迁移至Amazon自研的Graviton处理器,并开始试用第3代AI训练芯片Trainium3(来源: TechCrunch, 2026-04-07)。同一周期内,Amazon CEO Andy Jassy在此前的财报电话会议中已将Trainium称为”数十亿美元级业务”——TechCrunch在4月7日的报道中引述了这一表态(来源: TechCrunch, 2026-04-07)。这不是一条普通的企业采购新闻。当一家年处理数十亿次出行请求的超级平台,选择将计算基座从通用GPU迁移到云厂商自研芯片时,它传递的信号远比表面更深刻——NVIDIA在推理和训练市场的统治地位,正在被一种全新的”垂直整合+定制硅”模式从底部侵蚀。
这篇文章将从4个层面拆解这一事件:Uber的成本算术为什么成立?Trainium3的技术竞争力究竟如何?AWS自研芯片生态是否已经形成飞轮?以及最关键的——这对NVIDIA意味着什么,大多数人可能低估了什么?
1. Uber的成本算术:为什么现在迁移?
1.1 Graviton的经济学已被充分验证
要理解Uber的决策逻辑,首先需要理解Graviton系列芯片过去5年积累的成本优势数据。
Amazon从2018年推出第1代Graviton(基于ARM架构的自研服务器CPU),到2023年的Graviton4,已经迭代了4代。AWS官方数据显示,Graviton4相比同代x86实例(基于Intel Xeon或AMD EPYC),在通用计算场景下提供最高40%的性价比提升(来源: AWS官方博客, “New Graviton4-Powered Amazon EC2 Instances”, 2024-05-01)。这个数字并非营销话术——它来自ARM架构在能效比上的结构性优势:更少的晶体管用于乱序执行的复杂逻辑,更多的面积分配给计算核心和缓存。
对Uber而言,核心骑行调度系统的计算特征是:高并发、低延迟、CPU密集型。每秒需要处理数百万次地理位置匹配、动态定价计算和ETA预测。这类工作负载恰好是Graviton的甜区——大量并行的轻量级计算任务,不需要GPU的浮点吞吐,但对每美元算力极其敏感。
一个基于公开数据的估算:根据Uber 2025财年10-K年报,其全年”研究与开发”(Research and Development)支出约为60亿至65亿美元(来源: Uber Technologies, Inc. SEC Filing 10-K, FY2025)。行业通行估算中,大型互联网公司的云基础设施支出通常占技术总支出的30%-40%——需要强调,这一比例是作者基于行业惯例的估算,Uber未单独披露云支出明细。据此推算,Uber的云基础设施年支出大致在18亿至26亿美元区间。如果将50%的通用计算迁移到Graviton,按30%的成本节省计算,年化节省金额在2.7亿至3.9亿美元之间。Uber 2025年全年营业利润约为47亿美元(来源: Uber Technologies, Inc. SEC Filing 10-K, FY2025),这意味着迁移带来的成本节省相当于利润率提升约6%-8%。这些数字基于上述假设链条,实际节省可能因迁移范围和折扣条款不同而有较大偏差——但量级上,这不是边际优化,而是战略级的成本结构重塑。
1.2 Trainium3的试用:从推理到训练的全栈押注
Uber此次合同的更大看点不在Graviton,而在Trainium3。
Graviton降低通用计算成本,这是已经被Netflix、Airbnb等公司验证过的路径。但Trainium3是第3代AI专用训练芯片,Uber选择”试用”它,意味着Uber正在评估将部分AI模型训练工作负载从NVIDIA GPU迁移到AWS自研芯片的可行性——注意是”试用”而非全面迁移,这个区分至关重要。
Uber的AI训练需求并非小众。其核心业务依赖多个大规模机器学习模型:动态定价(Surge Pricing)模型需要实时训练以适应供需变化;ETA预测模型需要在数十亿历史行程数据上持续微调;欺诈检测模型需要在新型攻击模式出现后快速重训练;以及越来越重要的自动驾驶感知模型(Uber虽然在2020年出售了ATG部门给Aurora,但根据其后续财报披露,仍在内部维护感知和规划相关的AI能力)。
这些训练任务目前主要运行在NVIDIA A100/H100集群上。如果Trainium3能在性价比上提供显著优势,Uber的迁移动机将非常强烈。
1.3 锁定效应与谈判筹码
还有一个常被忽略的维度:Uber选择AWS自研芯片,本质上是在加深与AWS的绑定,以换取更优惠的长期合同条款。
云计算行业的定价逻辑是:客户承诺的消费越多、锁定期越长,折扣越深。Uber迁移到Graviton和Trainium3意味着其工作负载将深度适配AWS的自研芯片ISA(指令集架构)和软件栈,迁移到Google Cloud或Azure的成本将大幅上升。AWS乐于提供激进的折扣来换取这种锁定——因为自研芯片的边际成本远低于向NVIDIA采购GPU后再加价转售。
这是一个双赢但不对称的交易:Uber获得短期成本优势,AWS获得长期客户锁定。而NVIDIA则失去了一个大客户的GPU采购需求。
2. Trainium3的技术竞争力:它真的能挑战NVIDIA吗?
2.1 架构层面的差异化
要评估Trainium3的竞争力,必须先理解它与NVIDIA GPU在架构哲学上的根本差异。
NVIDIA的GPU(如H100/H200/B200)是通用加速器,设计目标是覆盖尽可能广泛的AI工作负载——从训练到推理,从LLM到图像生成,从稀疏模型到稠密模型。这种通用性是NVIDIA护城河的核心:一套CUDA生态覆盖所有场景,开发者只需要学一次。
Trainium3则走了一条不同的路。作为AWS内部设计(由其子公司Annapurna Labs主导)、由台积电代工的ASIC(专用集成电路),Trainium3针对的是云端大规模训练场景的特定优化:
高带宽互联:Trainium3集成了NeuronLink互联技术,支持芯片间的超低延迟通信。AWS在2024年re:Invent大会上披露了Trainium2的NeuronLink规格,Trainium3在此基础上进一步升级(来源: AWS re:Invent 2024 Keynote, 2024-12-03)。在大规模分布式训练中,芯片间通信带宽往往是瓶颈(所谓的”通信墙”)。AWS可以将Trainium3与其自研的网络基础设施(Nitro系统、EFA弹性网络适配器)深度整合,实现从芯片到机架到数据中心的端到端优化。这是NVIDIA在第三方云上无法做到的——NVIDIA的NVLink只能优化节点内通信,跨节点通信仍然依赖云厂商的网络。
内存带宽优化:大模型训练的另一个关键瓶颈是HBM(高带宽内存)。关于Trainium3的具体HBM规格,AWS尚未发布官方白皮书确认完整参数。行业分析师基于台积电先进封装路线图推测Trainium3可能采用HBM3E规格,每芯片内存带宽可能达到4.8 TB/s量级——但这一数字未经AWS官方确认,读者应视为推测性估算。更重要的是,AWS可以针对自己的训练框架(Neuron SDK)优化内存访问模式,减少无效的内存搬运。
能效比:ASIC相比GPU的根本优势在于:去掉了通用计算不需要的电路,将更多的芯片面积和功耗预算分配给AI训练真正需要的矩阵乘法单元。根据MIT和Stanford联合发表的芯片架构研究,同等工艺节点下,针对特定工作负载优化的ASIC能效比可以比通用GPU高30%-50%(来源: Sze et al., “Efficient Processing of Deep Neural Networks”, MIT, 2020)。
2.2 软件栈:最大的短板和最快的进步
如果只看硬件参数,Trainium3的竞争力是清晰的。但芯片的价值从来不只是硬件——软件生态才是决定成败的关键。
NVIDIA的CUDA生态经过15年以上的积累,拥有超过400万开发者(来源: NVIDIA GTC 2024 Keynote, Jensen Huang)、数千个优化库(cuDNN、cuBLAS、TensorRT、NCCL等)和几乎所有主流AI框架的原生支持。任何新芯片要挑战NVIDIA,都必须回答一个问题:开发者为什么要放弃CUDA?
AWS的回答是Neuron SDK。Neuron SDK是AWS为Trainium和Inferentia系列芯片开发的软件栈,支持PyTorch和JAX框架。截至2026年初,Neuron SDK已经迭代到2.x版本,支持包括Llama、GPT、Mixtral等主流模型架构的训练和推理(来源: AWS Neuron SDK Documentation, aws.amazon.com/machine-learning/neuron)。
但这里有一个关键的认知差异:大多数分析师在评估Neuron SDK时,用的是”通用开发者生态”的框架,但AWS的目标从来不是建立一个通用生态——它只需要让自己的云客户能用就行。
这意味着什么?AWS不需要让100万独立开发者在笔记本上用Neuron SDK写代码。它只需要确保Uber、Anthropic这些大客户的特定工作负载能在Trainium3上高效运行。AWS可以为每个大客户配备专门的解决方案架构师团队,帮助他们完成模型移植和优化。这是一种”白手套服务”模式,不需要广泛的社区生态支持。
事实上,Anthropic已经是Trainium的重度用户——Anthropic的Claude模型训练部分运行在AWS Trainium集群上,这是AWS与Anthropic数十亿美元投资协议的一部分(来源: Amazon Press Release, “Amazon and Anthropic Deepen Partnership”, 2023-09-25;后续追加投资至总计80亿美元,来源: CNBC, 2024-03-27)。当这些最前沿的AI实验室都在使用Trainium时,Uber这样的应用层公司迁移的信心自然大增。
关于OpenAI是否在评估Trainium:市场上存在未经证实的传闻称OpenAI可能在评估AWS Trainium用于部分工作负载,以降低对单一云厂商的依赖。但考虑到OpenAI与Microsoft Azure的深度绑定(Microsoft累计投资超过130亿美元),且截至本文发稿,没有任何权威来源确认这一说法,读者应将其视为未经验证的市场猜测。
2.3 与Google TPU的对比
在自研AI芯片领域,Google的TPU(Tensor Processing Unit)是更早的先行者。TPU v5p于2023年底发布,TPU v6(Trillium)在2024-2025年间推出(来源: Google Cloud Blog, “Introducing Cloud TPU v6e”, 2024-05-14)。Google用TPU训练了Gemini系列模型,证明了自研芯片在前沿模型训练上的可行性。
Trainium3与TPU的核心区别在于商业模式:
- TPU主要服务Google内部,虽然通过Google Cloud对外提供,但外部客户的优先级和优化程度始终低于Google内部团队。
- Trainium则是AWS的外部商业产品,其设计目标就是服务AWS的云客户。AWS的商业模式决定了它必须让Trainium对外部客户足够好用——因为AWS的收入来自外部客户,而非内部消耗。
这个商业模式差异导致了一个重要结果:AWS在Trainium的软件栈易用性、客户支持和文档完善度上的投入动机,远强于Google对TPU外部客户的投入。对Uber这样的客户来说,这意味着更低的迁移摩擦和更好的技术支持。
3. AWS自研芯片生态:飞轮是否已经转起来?
3.1 从单点产品到全栈平台
AWS的自研芯片战略不是一个孤立的硬件项目,而是一个涵盖CPU(Graviton)、AI训练(Trainium)、AI推理(Inferentia)和网络(Nitro)的全栈自研体系。
这个全栈布局的战略意义在于:它让AWS能够提供一种NVIDIA无法匹敌的垂直整合体验。
当Uber在AWS上运行时,它的通用计算跑在Graviton上,AI训练跑在Trainium3上,AI推理跑在Inferentia2上,所有芯片之间的通信通过Nitro网络和EFA加速。整个技术栈由同一个团队设计和优化,不存在跨厂商的兼容性问题。相比之下,在NVIDIA生态中,GPU来自NVIDIA,CPU来自Intel或AMD,网络来自Mellanox(虽然已被NVIDIA收购,但数据中心网络仍然高度依赖云厂商的基础设施),软件栈需要在多个厂商的组件之间协调。
这种垂直整合的优势在大规模部署中尤为明显。当训练集群扩展到数千甚至数万芯片时,系统级的端到端优化(而非单芯片性能)往往是决定性价比的关键因素。AWS在这方面拥有结构性优势。
3.2 客户飞轮:从Anthropic到Uber
AWS自研芯片生态的飞轮逻辑如下:
- 大客户采用 → 提供真实工作负载的性能数据和优化反馈
- 性能优化 → Neuron SDK针对实际客户需求持续改进
- 成本优势扩大 → 更多客户被吸引
- 规模效应 → 芯片产量增加,单位成本下降,AWS进一步降价
- 回到第1步
这个飞轮已经开始转动。目前已知的AWS自研芯片大客户包括:
- Anthropic:作为AWS投资的AI公司,Claude模型的训练和推理大量使用Trainium和Inferentia。Anthropic最新的Project Glasswing网络安全计划(2026年4月7日发布)中,其底层AI基础设施与AWS深度绑定(来源: Anthropic官方博客, 2026-04-07;Reuters, 2026-04-07)。
- Apple:Apple是AWS的长期大客户,其iCloud和Apple Intelligence的部分后端运行在AWS上(来源: The Information, “Apple’s Spending on Amazon Web Services”, 2024-04-15)。Apple对成本效率的追求使其成为Graviton的天然用户。
- Uber:最新加入的大客户,核心业务迁移到Graviton,AI训练试用Trainium3。
这个客户名单本身就是最强的信号:当全球最挑剔的技术买家(AI实验室和超级平台)都在采用AWS自研芯片时,它已经跨过了”能用”的门槛,进入了”好用且便宜”的阶段。
3.3 Andy Jassy的”数十亿美元”表态
Amazon CEO Andy Jassy此前在财报电话会议中将Trainium称为”数十亿美元级业务”——TechCrunch在2026年4月7日的报道中引述了这一表态(来源: TechCrunch, 2026-04-07)。需要说明的是,4月7日并非Amazon财报电话会议的日期(Amazon通常在每季度结束后约1个月发布财报),Jassy的原始表态来自此前的财报会议,TechCrunch在报道Uber合同时引用了这一背景信息。
“数十亿美元”(multi-billion dollar)在Amazon的语境中通常意味着年化收入超过20亿美元。根据Amazon 2025年10-K年报,AWS全年收入约为1070亿美元(来源: Amazon.com, Inc. SEC Filing 10-K, FY2025)。Trainium占比约为1.5%-2%。这个比例看起来不大,但有两个关键点:
第1,增速。Trainium从2022年第1代推出到2026年达到数十亿美元收入,年复合增长率可能超过200%。这在AWS的所有产品线中属于增长最快的类别。
第2,利润率。自研芯片的毛利率远高于转售NVIDIA GPU。当AWS向客户提供基于NVIDIA GPU的EC2实例(如P5实例)时,它需要向NVIDIA支付高昂的GPU采购成本。根据NVIDIA FY2025 10-K年报(截至2025年1月的财年),NVIDIA数据中心业务的毛利率约为73%-76%(来源: NVIDIA Corporation SEC Filing 10-K, FY2025),这意味着NVIDIA在GPU销售中攫取了大部分利润,AWS的利润空间被大幅压缩。而当AWS提供基于Trainium的实例时,芯片成本主要是台积电的代工费和封装费,AWS保留了芯片设计的全部利润。粗略估算,Trainium实例的毛利率可能比NVIDIA GPU实例高20-30个百分点。
这意味着Trainium虽然只贡献了AWS收入的约2%,但对利润的贡献可能接近5%-8%。这是Amazon推动客户迁移到自研芯片的核心财务动机。
4. 对NVIDIA的长期威胁:大多数人没看到什么?
4.1 表面叙事:NVIDIA不可撼动
主流叙事认为NVIDIA的地位是安全的。理由包括:
- CUDA生态的护城河太深,迁移成本太高
- NVIDIA的研发投入巨大——根据其FY2025 10-K,全年研发支出约为126亿美元(来源: NVIDIA Corporation SEC Filing 10-K, FY2025)
- 前沿模型训练仍然高度依赖NVIDIA GPU(GPT-5、Gemini 2.0等旗舰模型的主训练集群仍以NVIDIA GPU为主)
- Blackwell架构(B200/GB200)的性能跃升进一步拉大了与竞争对手的差距
这些论点都是事实。但它们描述的是存量市场的格局,而非增量市场的方向。
4.2 深层威胁:增量市场的分流
NVIDIA真正应该担心的不是Anthropic或Google会完全抛弃其GPU(短期内不会),而是以下3个趋势:
趋势1:推理市场的流失。 AI的商业化进程意味着推理(inference)工作负载的增长速度将远超训练(training)。Morgan Stanley在2025年发布的AI基础设施展望报告中估计,到2027年,全球AI推理支出将占AI总计算支出的60%以上(来源: Morgan Stanley Research, “AI Infrastructure: The Next Phase”, 2025年3月发布,作者: Keith Weiss et al.)。推理工作负载的特征是:对延迟敏感、对吞吐量要求高、对成本极其敏感。这恰好是ASIC(如Inferentia、Google TPU)相对GPU的优势区间。Uber将推理工作负载迁移到Inferentia/Graviton的决策,代表了这个趋势的加速。
趋势2:训练市场的碎片化。 并非所有训练都是GPT-5级别的万卡集群训练。大量企业级AI训练是中等规模的——数十到数百卡的微调、持续学习和领域适配。这些中等规模训练对CUDA生态的依赖度较低(模型架构通常是标准的Transformer,不需要复杂的自定义CUDA kernel),对成本的敏感度较高。Trainium3瞄准的正是这个市场。Uber试用Trainium3进行模型训练,就是这种中等规模训练场景的典型代表。
趋势3:云厂商的利益不一致。 AWS、Google Cloud、Azure是NVIDIA GPU的最大买家,同时也是NVIDIA最大的潜在竞争对手。这三家云厂商都在开发自研AI芯片(AWS的Trainium/Inferentia、Google的TPU、Microsoft的Maia),动机很简单:降低对NVIDIA的依赖,提高自身利润率。每当一个Uber这样的客户从NVIDIA GPU实例迁移到自研芯片实例,云厂商的利润率就会提升,而NVIDIA就会失去一笔GPU销售。
这三个趋势叠加的效果是:NVIDIA可能在前沿训练市场(万卡集群、旗舰模型)保持统治地位,但在更广泛的推理市场和中等规模训练市场逐渐失去份额。考虑到推理市场的增速远快于训练市场,NVIDIA的整体市场份额可能在未来3-5年内从目前的约80%下降到60%-65%——这是作者基于上述趋势的判断性预测,非精确数据。
4.3 NVIDIA的反制策略
NVIDIA并非没有意识到这些威胁。Jensen Huang的应对策略包括:
软件锁定加深:NVIDIA持续扩展CUDA生态,推出NIM(NVIDIA Inference Microservices)、NVIDIA AI Enterprise等软件平台,试图在芯片之上建立更高层的软件锁定。
全栈化:通过收购Mellanox(2020年,69亿美元)、Cumulus(网络操作系统)和开发DGX Cloud平台,NVIDIA试图提供类似AWS的垂直整合体验。但这里有一个根本性的矛盾:NVIDIA的DGX Cloud需要运行在云厂商的数据中心中,而云厂商同时也是NVIDIA的竞争对手。这种”既是客户又是竞争对手”的关系(coopetition)在历史上很少能长期稳定。
定价策略:面对自研芯片的成本压力,NVIDIA可能被迫在推理和中端训练市场降价,以保持竞争力。但降价会直接冲击其超过70%的毛利率——这是NVIDIA股票估值的核心支撑。
加速迭代:NVIDIA的芯片迭代节奏正在从2年一代压缩到1年一代。Hopper(2022)→ Blackwell(2024)→ Rubin(预计2026下半年)。每一代的性能提升幅度在2-3倍(来源: NVIDIA GTC 2025 Keynote, Jensen Huang)。这种迭代速度使得竞争对手很难在绝对性能上追赶。
4.4 第三层洞察:真正的威胁不是芯片,是数据引力
大多数分析师将这场竞争框架为”NVIDIA GPU vs. 自研ASIC”的芯片性能之争。但我认为真正的决定性因素不在芯片层面,而在数据引力(Data Gravity)层面。
什么是数据引力?这个概念由Dave McCrory在2010年提出,核心含义是:企业的数据存储在哪个平台上,计算就倾向于在哪个平台上运行。因为移动数据的成本(网络带宽费、延迟、合规风险)远高于移动计算。
Uber的核心数据——数十亿次行程记录、实时位置流、用户行为日志——存储在AWS S3上。当Uber需要在这些数据上训练AI模型时,最经济的选择是在AWS内部使用AWS的计算资源(包括Trainium3),而不是将数据搬到另一个平台的NVIDIA GPU集群上。
这意味着:AWS的自研芯片不需要在绝对性能上超越NVIDIA GPU,只需要在”足够好”的性能水平上提供显著的成本优势。 因为数据引力已经将客户锁定在AWS生态中,迁移到NVIDIA的DGX Cloud或其他平台的总成本(包括数据迁移成本)远高于留在AWS使用Trainium3。
这是一个NVIDIA几乎无法破解的结构性劣势:它不控制数据层。云厂商控制数据层,因此云厂商的自研芯片天然享有数据引力的加成。这才是Uber选择Trainium3的深层逻辑——不是因为Trainium3比H100快,而是因为Uber的数据已经在AWS上了,在同一个屋顶下用更便宜的芯片是阻力最小的路径。
5. 更广泛的产业影响:自研芯片浪潮的加速
5.1 不只是AWS:全行业的去NVIDIA化
Uber迁移到AWS自研芯片是一个更广泛趋势的缩影。2025-2026年间,多个大型科技公司加速了自研芯片的部署:
- Google:TPU v6(Trillium)大规模部署,Gemini系列模型的训练和推理越来越多地运行在TPU上(来源: Google Cloud Blog, 2024-2025)。
- Microsoft:Maia 100 AI加速器在2024年底开始在Azure内部测试,2025年逐步向外部客户开放。Microsoft同时推出了Cobalt 100 ARM CPU,对标AWS Graviton(来源: Microsoft Azure Blog, “Introducing Microsoft Azure Maia 100 and Cobalt 100”, 2023-11-15)。
- Meta:自研MTIA(Meta Training and Inference Accelerator)芯片在2024-2025年间迭代到第2代,用于内部推荐系统和广告排序模型的推理(来源: Meta Engineering Blog, “Next Generation Meta Training and Inference Accelerator”, 2024-04-10)。
- Apple:虽然Apple不是云厂商,但其M系列芯片在端侧AI推理上的成功,证明了自研芯片在特定场景下对通用GPU的优势。
这些公司的共同逻辑是:当AI计算支出占到总运营成本的显著比例时,自研芯片从”nice to have”变成了”must have”。 因为自研芯片不仅降低单位计算成本,还消除了对单一供应商(NVIDIA)的依赖风险。
5.2 对芯片供应链的影响
自研芯片浪潮的加速对半导体供应链产生了深远影响:
台积电是最大赢家。 无论是NVIDIA的GPU、AWS的Trainium、Google的TPU还是Microsoft的Maia,都由台积电代工。自研芯片的增长意味着台积电的先进制程产能需求更加多元化,不再高度依赖NVIDIA单一客户。台积电2025年全年收入达到约2.89万亿新台币(约890亿美元),其中AI相关芯片收入占比持续提升(来源: TSMC Quarterly Earnings, 2025)。
芯片设计人才争夺加剧。 AWS的芯片团队Annapurna Labs(2015年以3.5亿美元收购的以色列芯片设计公司)、Google的TPU团队、Microsoft的芯片团队都在大规模招聘。根据Levels.fyi和Glassdoor的薪酬数据,高端芯片架构师(Staff/Principal级别)的总薪酬包在2024-2025年间显著上涨,硅谷地区的顶级芯片设计人才年薪总包可达80万至150万美元(来源: Levels.fyi, 2025年数据)。
EDA工具和IP授权商受益。 Synopsys、Cadence、ARM等公司从自研芯片浪潮中获得了更多的许可收入。ARM尤其受益——Graviton、Cobalt、MTIA等自研芯片大多基于ARM架构。ARM在FY2025(截至2025年3月)的授权和版税收入同比增长超过20%(来源: ARM Holdings plc Quarterly Earnings, FY2025)。
5.3 对AI创业公司的影响
自研芯片浪潮对AI创业生态也有重要影响。
一方面,AWS自研芯片的成本优势降低了AI创业公司的计算成本门槛。如果Trainium3实例的价格比NVIDIA GPU实例低30%-40%,那么一家AI创业公司用同样的资金可以训练更大的模型或进行更多的实验。这对AI创业生态是正面的。
另一方面,自研芯片加深了云厂商的锁定效应。创业公司一旦在Trainium3上优化了训练流程,迁移到其他平台的成本就会大幅上升。这使得云厂商对AI创业公司的控制力进一步增强。
值得注意的是,TechCrunch在2026年4月7日报道了AI领域私人财富直投的趋势——家族办公室和高净值个人绕过传统VC直接投资AI创业公司,如Arena Private Wealth联合领投AI芯片公司Positron的2.3亿美元融资(来源: TechCrunch, 2026-04-07)。这表明市场对”替代NVIDIA”的芯片方案有强烈的投资兴趣,资本正在加速流入这个赛道。
6. 反面论证:为什么NVIDIA可能没那么脆弱?
任何严肃的分析都必须考虑反面观点。以下是支持NVIDIA地位稳固的3个核心论据:
6.1 前沿模型训练仍是NVIDIA的领地
截至2026年4月,全球最大的AI训练集群仍然以NVIDIA GPU为主。OpenAI的GPT-5训练据报道使用了超过10万张H100/H200 GPU(来源: The Information, 2025);Anthropic的Claude系列模型虽然部分使用了Trainium,但最计算密集的预训练阶段仍然依赖NVIDIA GPU(来源: The Verge, 2026-04-07)。
前沿模型训练对芯片性能的要求极其苛刻——需要最高的浮点吞吐、最大的内存带宽、最成熟的分布式训练框架支持。在这个领域,NVIDIA Blackwell架构(B200/GB200)的性能优势仍然明显。Trainium3可能在性价比上有优势,但在绝对性能上仍有差距。
6.2 CUDA的网络效应
CUDA生态的护城河不仅是代码库的规模,更是人才网络的规模。全球数百万AI工程师的技能栈以CUDA为中心,大学课程教CUDA,面试考CUDA,开源项目用CUDA。即使AWS的Neuron SDK在功能上追赶上来,改变整个人才市场的技能偏好需要5-10年。
6.3 NVIDIA的迭代速度与生态扩展
如前所述,NVIDIA的芯片迭代节奏正在加速到每年一代。此外,NVIDIA通过CUDA Libraries、Triton编译器(开源)、以及与PyTorch 2.0的深度整合,持续降低开发者在NVIDIA平台上的使用门槛。NVIDIA还在积极拓展汽车(DRIVE平台)、机器人(Isaac平台)和数字孪生(Omniverse)等新市场,这些市场的自研芯片替代威胁远小于云计算市场。
6.4 我的判断
综合正反两方面的论据,我的判断是:
NVIDIA在前沿训练市场的统治地位在未来3-5年内是安全的。 没有任何自研芯片能在绝对性能上挑战Blackwell/Rubin架构,而前沿AI实验室不会为了省钱而牺牲训练速度。
但NVIDIA在推理市场和中等规模训练市场的份额将持续下降。 这两个市场的增速远快于前沿训练市场,且对成本敏感度更高。AWS Trainium3/Inferentia、Google TPU、Microsoft Maia将在这些市场中蚕食NVIDIA的份额。
净效果是:NVIDIA的总收入可能继续增长(因为整体AI计算市场在快速扩大),但市场份额和毛利率将面临下行压力。 这对NVIDIA的股票估值(目前隐含了长期垄断利润的预期)可能产生显著影响。这不是NVIDIA”衰落”的故事,而是从”唯一选择”变成”最佳选择之一”的故事——后者对估值的影响可能比大多数投资者预期的更大。
7. So What:这对你意味着什么?
对企业CTO/CIO
如果你的企业正在AWS上运行AI工作负载,现在是认真评估Graviton和Trainium3的时候了。Uber的迁移决策不是冲动之举——它基于充分验证的成本数据和AWS提供的迁移支持。建议的行动路径是:
- 先将通用计算(Web服务、数据处理、微服务)迁移到Graviton,这是风险最低、回报最快的一步
- 将AI推理工作负载迁移到Inferentia2,重点关注延迟和吞吐量的基准测试
- 在Trainium3上进行小规模训练试点,评估Neuron SDK对你的模型架构的支持程度
- 根据试点结果,制定12-18个月的全面迁移计划
对AI工程师
不要把所有赌注押在CUDA上。学习至少一个替代框架(Neuron SDK、Google JAX/TPU、Triton)不仅是职业保险,也能帮助你更深入地理解AI计算的底层原理。CUDA的抽象层隐藏了太多细节,而在自研芯片上工作会迫使你理解内存层次、通信拓扑和编译器优化——这些知识在任何平台上都有价值。
对投资者
Uber押注Trainium3是一个信号,表明AWS自研芯片的商业飞轮已经开始转动。关注以下指标来跟踪这个趋势的演进:
- AWS财报中自研芯片相关收入的增长率(Amazon可能不会单独披露,但可以从Jassy的表态和AWS收入增速中推断)
- NVIDIA数据中心业务的毛利率变化(如果开始下降,说明竞争压力正在传导到定价)——NVIDIA FY2025数据中心毛利率约为73%-76%,这是未来的关键监测指标
- 大型企业客户的云合同公告中是否越来越多地提及自研芯片
- Neuron SDK的GitHub活跃度、PyPI下载量等社区指标
对产业观察者
2026年可能是AI计算产业格局的转折点。不是因为NVIDIA会突然失去统治地位——它不会。而是因为”后CUDA时代”的种子已经种下:云厂商的自研芯片在成本和垂直整合上建立了可持续的优势,大型企业客户开始用脚投票,资本市场开始为替代方案提供充足的资金。
一句话总结这篇文章的核心洞察:Uber选择Trainium3,不是因为它比NVIDIA的GPU更快,而是因为Uber的数据已经在AWS上——数据引力,而非芯片性能,才是决定AI计算格局的终极力量。
Uber选择Trainium3,不是一个企业的采购决策。它是一个时代的注脚。
参考资料
- Uber is the latest to be won over by Amazon’s AI chips — TechCrunch, 2026-04-07
- Anthropic announces Project Glasswing — Anthropic官方博客, 2026-04-07
- Anthropic’s new model found security vulnerabilities in “every major operating system and browser” — The Verge, 2026-04-07
- Anthropic touts AI cybersecurity project with big tech partners — Reuters, 2026-04-07
- The AI gold rush is pulling private wealth into riskier, earlier bets — TechCrunch, 2026-04-07
- New Graviton4-Powered Amazon EC2 Instances — AWS官方博客, 2024-05-01
- NVIDIA Corporation Annual Report (10-K), Fiscal Year 2025 — 来源: SEC EDGAR (investor.nvidia.com), 2025-02
- Uber Technologies, Inc. Annual Report (10-K), Fiscal Year 2025 — 来源: SEC EDGAR (investor.uber.com), 2026-02
- Amazon.com, Inc. Annual Report (10-K), Fiscal Year 2025 — 来源: SEC EDGAR (ir.aboutamazon.com), 2026-02
- Morgan Stanley Research, “AI Infrastructure: The Next Phase” — 来源: Morgan Stanley, 2025-03(付费报告,作者: Keith Weiss et al.)
- Amazon and Anthropic Deepen Their Shared Commitment to Advancing Generative AI — Amazon Press Release, 2023-09-25
- Next Generation Meta Training and Inference Accelerator — Meta Engineering Blog, 2024-04-10
主题分类:企业AI落地