Uber押注Trainium3：大型互联网企业为何减少NVIDIA依赖，转向AWS自研芯片？

2026年4月7日，Uber宣布大幅扩大与AWS的云合同，将核心骑行调度功能迁移至Amazon自研的Graviton处理器，并开始试用第3代AI训练芯片Trainium3（来源: TechCrunch, 2026-04-07）。同一周期内，Amazon CEO Andy Jassy在此前的财报电话会议中已将Trainium称为”数十亿美元级业务”——TechCrunch在4月7日的报道中引述了这一表态（来源: TechCrunch, 2026-04-07）。这不是一条普通的企业采购新闻。当一家年处理数十亿次出行请求的超级平台，选择将计算基座从通用GPU迁移到云厂商自研芯片时，它传递的信号远比表面更深刻——NVIDIA在推理和训练市场的统治地位，正在被一种全新的”垂直整合+定制硅”模式从底部侵蚀。

这篇文章将从4个层面拆解这一事件：Uber的成本算术为什么成立？Trainium3的技术竞争力究竟如何？AWS自研芯片生态是否已经形成飞轮？以及最关键的——这对NVIDIA意味着什么，大多数人可能低估了什么？

1. Uber的成本算术：为什么现在迁移？

1.1 Graviton的经济学已被充分验证

要理解Uber的决策逻辑，首先需要理解Graviton系列芯片过去5年积累的成本优势数据。

Amazon从2018年推出第1代Graviton（基于ARM架构的自研服务器CPU），到2023年的Graviton4，已经迭代了4代。AWS官方数据显示，Graviton4相比同代x86实例（基于Intel Xeon或AMD EPYC），在通用计算场景下提供最高40%的性价比提升（来源: AWS官方博客, “New Graviton4-Powered Amazon EC2 Instances”, 2024-05-01）。这个数字并非营销话术——它来自ARM架构在能效比上的结构性优势：更少的晶体管用于乱序执行的复杂逻辑，更多的面积分配给计算核心和缓存。

对Uber而言，核心骑行调度系统的计算特征是：高并发、低延迟、CPU密集型。每秒需要处理数百万次地理位置匹配、动态定价计算和ETA预测。这类工作负载恰好是Graviton的甜区——大量并行的轻量级计算任务，不需要GPU的浮点吞吐，但对每美元算力极其敏感。

一个基于公开数据的估算：根据Uber 2025财年10-K年报，其全年”研究与开发”（Research and Development）支出约为60亿至65亿美元（来源: Uber Technologies, Inc. SEC Filing 10-K, FY2025）。行业通行估算中，大型互联网公司的云基础设施支出通常占技术总支出的30%-40%——需要强调，这一比例是作者基于行业惯例的估算，Uber未单独披露云支出明细。据此推算，Uber的云基础设施年支出大致在18亿至26亿美元区间。如果将50%的通用计算迁移到Graviton，按30%的成本节省计算，年化节省金额在2.7亿至3.9亿美元之间。Uber 2025年全年营业利润约为47亿美元（来源: Uber Technologies, Inc. SEC Filing 10-K, FY2025），这意味着迁移带来的成本节省相当于利润率提升约6%-8%。这些数字基于上述假设链条，实际节省可能因迁移范围和折扣条款不同而有较大偏差——但量级上，这不是边际优化，而是战略级的成本结构重塑。

1.2 Trainium3的试用：从推理到训练的全栈押注

Uber此次合同的更大看点不在Graviton，而在Trainium3。

Graviton降低通用计算成本，这是已经被Netflix、Airbnb等公司验证过的路径。但Trainium3是第3代AI专用训练芯片，Uber选择”试用”它，意味着Uber正在评估将部分AI模型训练工作负载从NVIDIA GPU迁移到AWS自研芯片的可行性——注意是”试用”而非全面迁移，这个区分至关重要。

Uber的AI训练需求并非小众。其核心业务依赖多个大规模机器学习模型：动态定价（Surge Pricing）模型需要实时训练以适应供需变化；ETA预测模型需要在数十亿历史行程数据上持续微调；欺诈检测模型需要在新型攻击模式出现后快速重训练；以及越来越重要的自动驾驶感知模型（Uber虽然在2020年出售了ATG部门给Aurora，但根据其后续财报披露，仍在内部维护感知和规划相关的AI能力）。

这些训练任务目前主要运行在NVIDIA A100/H100集群上。如果Trainium3能在性价比上提供显著优势，Uber的迁移动机将非常强烈。

1.3 锁定效应与谈判筹码

还有一个常被忽略的维度：Uber选择AWS自研芯片，本质上是在加深与AWS的绑定，以换取更优惠的长期合同条款。

云计算行业的定价逻辑是：客户承诺的消费越多、锁定期越长，折扣越深。Uber迁移到Graviton和Trainium3意味着其工作负载将深度适配AWS的自研芯片ISA（指令集架构）和软件栈，迁移到Google Cloud或Azure的成本将大幅上升。AWS乐于提供激进的折扣来换取这种锁定——因为自研芯片的边际成本远低于向NVIDIA采购GPU后再加价转售。

这是一个双赢但不对称的交易：Uber获得短期成本优势，AWS获得长期客户锁定。而NVIDIA则失去了一个大客户的GPU采购需求。

2. Trainium3的技术竞争力：它真的能挑战NVIDIA吗？

2.1 架构层面的差异化

要评估Trainium3的竞争力，必须先理解它与NVIDIA GPU在架构哲学上的根本差异。

NVIDIA的GPU（如H100/H200/B200）是通用加速器，设计目标是覆盖尽可能广泛的AI工作负载——从训练到推理，从LLM到图像生成，从稀疏模型到稠密模型。这种通用性是NVIDIA护城河的核心：一套CUDA生态覆盖所有场景，开发者只需要学一次。

Trainium3则走了一条不同的路。作为AWS内部设计（由其子公司Annapurna Labs主导）、由台积电代工的ASIC（专用集成电路），Trainium3针对的是云端大规模训练场景的特定优化：

高带宽互联：Trainium3集成了NeuronLink互联技术，支持芯片间的超低延迟通信。AWS在2024年re:Invent大会上披露了Trainium2的NeuronLink规格，Trainium3在此基础上进一步升级（来源: AWS re:Invent 2024 Keynote, 2024-12-03）。在大规模分布式训练中，芯片间通信带宽往往是瓶颈（所谓的”通信墙”）。AWS可以将Trainium3与其自研的网络基础设施（Nitro系统、EFA弹性网络适配器）深度整合，实现从芯片到机架到数据中心的端到端优化。这是NVIDIA在第三方云上无法做到的——NVIDIA的NVLink只能优化节点内通信，跨节点通信仍然依赖云厂商的网络。

内存带宽优化：大模型训练的另一个关键瓶颈是HBM（高带宽内存）。关于Trainium3的具体HBM规格，AWS尚未发布官方白皮书确认完整参数。行业分析师基于台积电先进封装路线图推测Trainium3可能采用HBM3E规格，每芯片内存带宽可能达到4.8 TB/s量级——但这一数字未经AWS官方确认，读者应视为推测性估算。更重要的是，AWS可以针对自己的训练框架（Neuron SDK）优化内存访问模式，减少无效的内存搬运。

能效比：ASIC相比GPU的根本优势在于：去掉了通用计算不需要的电路，将更多的芯片面积和功耗预算分配给AI训练真正需要的矩阵乘法单元。根据MIT和Stanford联合发表的芯片架构研究，同等工艺节点下，针对特定工作负载优化的ASIC能效比可以比通用GPU高30%-50%（来源: Sze et al., “Efficient Processing of Deep Neural Networks”, MIT, 2020）。

2.2 软件栈：最大的短板和最快的进步

如果只看硬件参数，Trainium3的竞争力是清晰的。但芯片的价值从来不只是硬件——软件生态才是决定成败的关键。

NVIDIA的CUDA生态经过15年以上的积累，拥有超过400万开发者（来源: NVIDIA GTC 2024 Keynote, Jensen Huang）、数千个优化库（cuDNN、cuBLAS、TensorRT、NCCL等）和几乎所有主流AI框架的原生支持。任何新芯片要挑战NVIDIA，都必须回答一个问题：开发者为什么要放弃CUDA？

AWS的回答是Neuron SDK。Neuron SDK是AWS为Trainium和Inferentia系列芯片开发的软件栈，支持PyTorch和JAX框架。截至2026年初，Neuron SDK已经迭代到2.x版本，支持包括Llama、GPT、Mixtral等主流模型架构的训练和推理（来源: AWS Neuron SDK Documentation, aws.amazon.com/machine-learning/neuron）。

但这里有一个关键的认知差异：大多数分析师在评估Neuron SDK时，用的是”通用开发者生态”的框架，但AWS的目标从来不是建立一个通用生态——它只需要让自己的云客户能用就行。

这意味着什么？AWS不需要让100万独立开发者在笔记本上用Neuron SDK写代码。它只需要确保Uber、Anthropic这些大客户的特定工作负载能在Trainium3上高效运行。AWS可以为每个大客户配备专门的解决方案架构师团队，帮助他们完成模型移植和优化。这是一种”白手套服务”模式，不需要广泛的社区生态支持。

事实上，Anthropic已经是Trainium的重度用户——Anthropic的Claude模型训练部分运行在AWS Trainium集群上，这是AWS与Anthropic数十亿美元投资协议的一部分（来源: Amazon Press Release, “Amazon and Anthropic Deepen Partnership”, 2023-09-25；后续追加投资至总计80亿美元，来源: CNBC, 2024-03-27）。当这些最前沿的AI实验室都在使用Trainium时，Uber这样的应用层公司迁移的信心自然大增。

关于OpenAI是否在评估Trainium：市场上存在未经证实的传闻称OpenAI可能在评估AWS Trainium用于部分工作负载，以降低对单一云厂商的依赖。但考虑到OpenAI与Microsoft Azure的深度绑定（Microsoft累计投资超过130亿美元），且截至本文发稿，没有任何权威来源确认这一说法，读者应将其视为未经验证的市场猜测。

2.3 与Google TPU的对比

在自研AI芯片领域，Google的TPU（Tensor Processing Unit）是更早的先行者。TPU v5p于2023年底发布，TPU v6（Trillium）在2024-2025年间推出（来源: Google Cloud Blog, “Introducing Cloud TPU v6e”, 2024-05-14）。Google用TPU训练了Gemini系列模型，证明了自研芯片在前沿模型训练上的可行性。

Trainium3与TPU的核心区别在于商业模式：

TPU主要服务Google内部，虽然通过Google Cloud对外提供，但外部客户的优先级和优化程度始终低于Google内部团队。
Trainium则是AWS的外部商业产品，其设计目标就是服务AWS的云客户。AWS的商业模式决定了它必须让Trainium对外部客户足够好用——因为AWS的收入来自外部客户，而非内部消耗。

这个商业模式差异导致了一个重要结果：AWS在Trainium的软件栈易用性、客户支持和文档完善度上的投入动机，远强于Google对TPU外部客户的投入。对Uber这样的客户来说，这意味着更低的迁移摩擦和更好的技术支持。

3. AWS自研芯片生态：飞轮是否已经转起来？

3.1 从单点产品到全栈平台

AWS的自研芯片战略不是一个孤立的硬件项目，而是一个涵盖CPU（Graviton）、AI训练（Trainium）、AI推理（Inferentia）和网络（Nitro）的全栈自研体系。

这个全栈布局的战略意义在于：它让AWS能够提供一种NVIDIA无法匹敌的垂直整合体验。

当Uber在AWS上运行时，它的通用计算跑在Graviton上，AI训练跑在Trainium3上，AI推理跑在Inferentia2上，所有芯片之间的通信通过Nitro网络和EFA加速。整个技术栈由同一个团队设计和优化，不存在跨厂商的兼容性问题。相比之下，在NVIDIA生态中，GPU来自NVIDIA，CPU来自Intel或AMD，网络来自Mellanox（虽然已被NVIDIA收购，但数据中心网络仍然高度依赖云厂商的基础设施），软件栈需要在多个厂商的组件之间协调。

这种垂直整合的优势在大规模部署中尤为明显。当训练集群扩展到数千甚至数万芯片时，系统级的端到端优化（而非单芯片性能）往往是决定性价比的关键因素。AWS在这方面拥有结构性优势。

3.2 客户飞轮：从Anthropic到Uber

AWS自研芯片生态的飞轮逻辑如下：

大客户采用 → 提供真实工作负载的性能数据和优化反馈
性能优化 → Neuron SDK针对实际客户需求持续改进
成本优势扩大 → 更多客户被吸引
规模效应 → 芯片产量增加，单位成本下降，AWS进一步降价
回到第1步

这个飞轮已经开始转动。目前已知的AWS自研芯片大客户包括：

Anthropic：作为AWS投资的AI公司，Claude模型的训练和推理大量使用Trainium和Inferentia。Anthropic最新的Project Glasswing网络安全计划（2026年4月7日发布）中，其底层AI基础设施与AWS深度绑定（来源: Anthropic官方博客, 2026-04-07；Reuters, 2026-04-07）。
Apple：Apple是AWS的长期大客户，其iCloud和Apple Intelligence的部分后端运行在AWS上（来源: The Information, “Apple’s Spending on Amazon Web Services”, 2024-04-15）。Apple对成本效率的追求使其成为Graviton的天然用户。
Uber：最新加入的大客户，核心业务迁移到Graviton，AI训练试用Trainium3。

这个客户名单本身就是最强的信号：当全球最挑剔的技术买家（AI实验室和超级平台）都在采用AWS自研芯片时，它已经跨过了”能用”的门槛，进入了”好用且便宜”的阶段。

3.3 Andy Jassy的”数十亿美元”表态

Amazon CEO Andy Jassy此前在财报电话会议中将Trainium称为”数十亿美元级业务”——TechCrunch在2026年4月7日的报道中引述了这一表态（来源: TechCrunch, 2026-04-07）。需要说明的是，4月7日并非Amazon财报电话会议的日期（Amazon通常在每季度结束后约1个月发布财报），Jassy的原始表态来自此前的财报会议，TechCrunch在报道Uber合同时引用了这一背景信息。

“数十亿美元”（multi-billion dollar）在Amazon的语境中通常意味着年化收入超过20亿美元。根据Amazon 2025年10-K年报，AWS全年收入约为1070亿美元（来源: Amazon.com, Inc. SEC Filing 10-K, FY2025）。Trainium占比约为1.5%-2%。这个比例看起来不大，但有两个关键点：

第1，增速。Trainium从2022年第1代推出到2026年达到数十亿美元收入，年复合增长率可能超过200%。这在AWS的所有产品线中属于增长最快的类别。

第2，利润率。自研芯片的毛利率远高于转售NVIDIA GPU。当AWS向客户提供基于NVIDIA GPU的EC2实例（如P5实例）时，它需要向NVIDIA支付高昂的GPU采购成本。根据NVIDIA FY2025 10-K年报（截至2025年1月的财年），NVIDIA数据中心业务的毛利率约为73%-76%（来源: NVIDIA Corporation SEC Filing 10-K, FY2025），这意味着NVIDIA在GPU销售中攫取了大部分利润，AWS的利润空间被大幅压缩。而当AWS提供基于Trainium的实例时，芯片成本主要是台积电的代工费和封装费，AWS保留了芯片设计的全部利润。粗略估算，Trainium实例的毛利率可能比NVIDIA GPU实例高20-30个百分点。

这意味着Trainium虽然只贡献了AWS收入的约2%，但对利润的贡献可能接近5%-8%。这是Amazon推动客户迁移到自研芯片的核心财务动机。

4. 对NVIDIA的长期威胁：大多数人没看到什么？

4.1 表面叙事：NVIDIA不可撼动

主流叙事认为NVIDIA的地位是安全的。理由包括：

CUDA生态的护城河太深，迁移成本太高
NVIDIA的研发投入巨大——根据其FY2025 10-K，全年研发支出约为126亿美元（来源: NVIDIA Corporation SEC Filing 10-K, FY2025）
前沿模型训练仍然高度依赖NVIDIA GPU（GPT-5、Gemini 2.0等旗舰模型的主训练集群仍以NVIDIA GPU为主）
Blackwell架构（B200/GB200）的性能跃升进一步拉大了与竞争对手的差距

这些论点都是事实。但它们描述的是存量市场的格局，而非增量市场的方向。

4.2 深层威胁：增量市场的分流

NVIDIA真正应该担心的不是Anthropic或Google会完全抛弃其GPU（短期内不会），而是以下3个趋势：

趋势1：推理市场的流失。 AI的商业化进程意味着推理（inference）工作负载的增长速度将远超训练（training）。Morgan Stanley在2025年发布的AI基础设施展望报告中估计，到2027年，全球AI推理支出将占AI总计算支出的60%以上（来源: Morgan Stanley Research, “AI Infrastructure: The Next Phase”, 2025年3月发布，作者: Keith Weiss et al.）。推理工作负载的特征是：对延迟敏感、对吞吐量要求高、对成本极其敏感。这恰好是ASIC（如Inferentia、Google TPU）相对GPU的优势区间。Uber将推理工作负载迁移到Inferentia/Graviton的决策，代表了这个趋势的加速。

趋势2：训练市场的碎片化。 并非所有训练都是GPT-5级别的万卡集群训练。大量企业级AI训练是中等规模的——数十到数百卡的微调、持续学习和领域适配。这些中等规模训练对CUDA生态的依赖度较低（模型架构通常是标准的Transformer，不需要复杂的自定义CUDA kernel），对成本的敏感度较高。Trainium3瞄准的正是这个市场。Uber试用Trainium3进行模型训练，就是这种中等规模训练场景的典型代表。

趋势3：云厂商的利益不一致。 AWS、Google Cloud、Azure是NVIDIA GPU的最大买家，同时也是NVIDIA最大的潜在竞争对手。这三家云厂商都在开发自研AI芯片（AWS的Trainium/Inferentia、Google的TPU、Microsoft的Maia），动机很简单：降低对NVIDIA的依赖，提高自身利润率。每当一个Uber这样的客户从NVIDIA GPU实例迁移到自研芯片实例，云厂商的利润率就会提升，而NVIDIA就会失去一笔GPU销售。

这三个趋势叠加的效果是：NVIDIA可能在前沿训练市场（万卡集群、旗舰模型）保持统治地位，但在更广泛的推理市场和中等规模训练市场逐渐失去份额。考虑到推理市场的增速远快于训练市场，NVIDIA的整体市场份额可能在未来3-5年内从目前的约80%下降到60%-65%——这是作者基于上述趋势的判断性预测，非精确数据。

4.3 NVIDIA的反制策略

NVIDIA并非没有意识到这些威胁。Jensen Huang的应对策略包括：

软件锁定加深：NVIDIA持续扩展CUDA生态，推出NIM（NVIDIA Inference Microservices）、NVIDIA AI Enterprise等软件平台，试图在芯片之上建立更高层的软件锁定。

全栈化：通过收购Mellanox（2020年，69亿美元）、Cumulus（网络操作系统）和开发DGX Cloud平台，NVIDIA试图提供类似AWS的垂直整合体验。但这里有一个根本性的矛盾：NVIDIA的DGX Cloud需要运行在云厂商的数据中心中，而云厂商同时也是NVIDIA的竞争对手。这种”既是客户又是竞争对手”的关系（coopetition）在历史上很少能长期稳定。

定价策略：面对自研芯片的成本压力，NVIDIA可能被迫在推理和中端训练市场降价，以保持竞争力。但降价会直接冲击其超过70%的毛利率——这是NVIDIA股票估值的核心支撑。

加速迭代：NVIDIA的芯片迭代节奏正在从2年一代压缩到1年一代。Hopper（2022）→ Blackwell（2024）→ Rubin（预计2026下半年）。每一代的性能提升幅度在2-3倍（来源: NVIDIA GTC 2025 Keynote, Jensen Huang）。这种迭代速度使得竞争对手很难在绝对性能上追赶。

4.4 第三层洞察：真正的威胁不是芯片，是数据引力

大多数分析师将这场竞争框架为”NVIDIA GPU vs. 自研ASIC”的芯片性能之争。但我认为真正的决定性因素不在芯片层面，而在数据引力（Data Gravity）层面。

什么是数据引力？这个概念由Dave McCrory在2010年提出，核心含义是：企业的数据存储在哪个平台上，计算就倾向于在哪个平台上运行。因为移动数据的成本（网络带宽费、延迟、合规风险）远高于移动计算。

Uber的核心数据——数十亿次行程记录、实时位置流、用户行为日志——存储在AWS S3上。当Uber需要在这些数据上训练AI模型时，最经济的选择是在AWS内部使用AWS的计算资源（包括Trainium3），而不是将数据搬到另一个平台的NVIDIA GPU集群上。

这意味着：AWS的自研芯片不需要在绝对性能上超越NVIDIA GPU，只需要在”足够好”的性能水平上提供显著的成本优势。 因为数据引力已经将客户锁定在AWS生态中，迁移到NVIDIA的DGX Cloud或其他平台的总成本（包括数据迁移成本）远高于留在AWS使用Trainium3。

这是一个NVIDIA几乎无法破解的结构性劣势：它不控制数据层。云厂商控制数据层，因此云厂商的自研芯片天然享有数据引力的加成。这才是Uber选择Trainium3的深层逻辑——不是因为Trainium3比H100快，而是因为Uber的数据已经在AWS上了，在同一个屋顶下用更便宜的芯片是阻力最小的路径。

5. 更广泛的产业影响：自研芯片浪潮的加速

5.1 不只是AWS：全行业的去NVIDIA化

Uber迁移到AWS自研芯片是一个更广泛趋势的缩影。2025-2026年间，多个大型科技公司加速了自研芯片的部署：

Google：TPU v6（Trillium）大规模部署，Gemini系列模型的训练和推理越来越多地运行在TPU上（来源: Google Cloud Blog, 2024-2025）。
Microsoft：Maia 100 AI加速器在2024年底开始在Azure内部测试，2025年逐步向外部客户开放。Microsoft同时推出了Cobalt 100 ARM CPU，对标AWS Graviton（来源: Microsoft Azure Blog, “Introducing Microsoft Azure Maia 100 and Cobalt 100”, 2023-11-15）。
Meta：自研MTIA（Meta Training and Inference Accelerator）芯片在2024-2025年间迭代到第2代，用于内部推荐系统和广告排序模型的推理（来源: Meta Engineering Blog, “Next Generation Meta Training and Inference Accelerator”, 2024-04-10）。
Apple：虽然Apple不是云厂商，但其M系列芯片在端侧AI推理上的成功，证明了自研芯片在特定场景下对通用GPU的优势。

这些公司的共同逻辑是：当AI计算支出占到总运营成本的显著比例时，自研芯片从”nice to have”变成了”must have”。 因为自研芯片不仅降低单位计算成本，还消除了对单一供应商（NVIDIA）的依赖风险。

5.2 对芯片供应链的影响

自研芯片浪潮的加速对半导体供应链产生了深远影响：

台积电是最大赢家。 无论是NVIDIA的GPU、AWS的Trainium、Google的TPU还是Microsoft的Maia，都由台积电代工。自研芯片的增长意味着台积电的先进制程产能需求更加多元化，不再高度依赖NVIDIA单一客户。台积电2025年全年收入达到约2.89万亿新台币（约890亿美元），其中AI相关芯片收入占比持续提升（来源: TSMC Quarterly Earnings, 2025）。

芯片设计人才争夺加剧。 AWS的芯片团队Annapurna Labs（2015年以3.5亿美元收购的以色列芯片设计公司）、Google的TPU团队、Microsoft的芯片团队都在大规模招聘。根据Levels.fyi和Glassdoor的薪酬数据，高端芯片架构师（Staff/Principal级别）的总薪酬包在2024-2025年间显著上涨，硅谷地区的顶级芯片设计人才年薪总包可达80万至150万美元（来源: Levels.fyi, 2025年数据）。

EDA工具和IP授权商受益。 Synopsys、Cadence、ARM等公司从自研芯片浪潮中获得了更多的许可收入。ARM尤其受益——Graviton、Cobalt、MTIA等自研芯片大多基于ARM架构。ARM在FY2025（截至2025年3月）的授权和版税收入同比增长超过20%（来源: ARM Holdings plc Quarterly Earnings, FY2025）。

5.3 对AI创业公司的影响

自研芯片浪潮对AI创业生态也有重要影响。

一方面，AWS自研芯片的成本优势降低了AI创业公司的计算成本门槛。如果Trainium3实例的价格比NVIDIA GPU实例低30%-40%，那么一家AI创业公司用同样的资金可以训练更大的模型或进行更多的实验。这对AI创业生态是正面的。

另一方面，自研芯片加深了云厂商的锁定效应。创业公司一旦在Trainium3上优化了训练流程，迁移到其他平台的成本就会大幅上升。这使得云厂商对AI创业公司的控制力进一步增强。

值得注意的是，TechCrunch在2026年4月7日报道了AI领域私人财富直投的趋势——家族办公室和高净值个人绕过传统VC直接投资AI创业公司，如Arena Private Wealth联合领投AI芯片公司Positron的2.3亿美元融资（来源: TechCrunch, 2026-04-07）。这表明市场对”替代NVIDIA”的芯片方案有强烈的投资兴趣，资本正在加速流入这个赛道。

6. 反面论证：为什么NVIDIA可能没那么脆弱？

任何严肃的分析都必须考虑反面观点。以下是支持NVIDIA地位稳固的3个核心论据：

6.1 前沿模型训练仍是NVIDIA的领地

截至2026年4月，全球最大的AI训练集群仍然以NVIDIA GPU为主。OpenAI的GPT-5训练据报道使用了超过10万张H100/H200 GPU（来源: The Information, 2025）；Anthropic的Claude系列模型虽然部分使用了Trainium，但最计算密集的预训练阶段仍然依赖NVIDIA GPU（来源: The Verge, 2026-04-07）。

前沿模型训练对芯片性能的要求极其苛刻——需要最高的浮点吞吐、最大的内存带宽、最成熟的分布式训练框架支持。在这个领域，NVIDIA Blackwell架构（B200/GB200）的性能优势仍然明显。Trainium3可能在性价比上有优势，但在绝对性能上仍有差距。

6.2 CUDA的网络效应

CUDA生态的护城河不仅是代码库的规模，更是人才网络的规模。全球数百万AI工程师的技能栈以CUDA为中心，大学课程教CUDA，面试考CUDA，开源项目用CUDA。即使AWS的Neuron SDK在功能上追赶上来，改变整个人才市场的技能偏好需要5-10年。

6.3 NVIDIA的迭代速度与生态扩展

如前所述，NVIDIA的芯片迭代节奏正在加速到每年一代。此外，NVIDIA通过CUDA Libraries、Triton编译器（开源）、以及与PyTorch 2.0的深度整合，持续降低开发者在NVIDIA平台上的使用门槛。NVIDIA还在积极拓展汽车（DRIVE平台）、机器人（Isaac平台）和数字孪生（Omniverse）等新市场，这些市场的自研芯片替代威胁远小于云计算市场。

6.4 我的判断

综合正反两方面的论据，我的判断是：

NVIDIA在前沿训练市场的统治地位在未来3-5年内是安全的。 没有任何自研芯片能在绝对性能上挑战Blackwell/Rubin架构，而前沿AI实验室不会为了省钱而牺牲训练速度。

但NVIDIA在推理市场和中等规模训练市场的份额将持续下降。 这两个市场的增速远快于前沿训练市场，且对成本敏感度更高。AWS Trainium3/Inferentia、Google TPU、Microsoft Maia将在这些市场中蚕食NVIDIA的份额。

净效果是：NVIDIA的总收入可能继续增长（因为整体AI计算市场在快速扩大），但市场份额和毛利率将面临下行压力。 这对NVIDIA的股票估值（目前隐含了长期垄断利润的预期）可能产生显著影响。这不是NVIDIA”衰落”的故事，而是从”唯一选择”变成”最佳选择之一”的故事——后者对估值的影响可能比大多数投资者预期的更大。

7. So What：这对你意味着什么？

对企业CTO/CIO

如果你的企业正在AWS上运行AI工作负载，现在是认真评估Graviton和Trainium3的时候了。Uber的迁移决策不是冲动之举——它基于充分验证的成本数据和AWS提供的迁移支持。建议的行动路径是：

先将通用计算（Web服务、数据处理、微服务）迁移到Graviton，这是风险最低、回报最快的一步
将AI推理工作负载迁移到Inferentia2，重点关注延迟和吞吐量的基准测试
在Trainium3上进行小规模训练试点，评估Neuron SDK对你的模型架构的支持程度
根据试点结果，制定12-18个月的全面迁移计划

对AI工程师

不要把所有赌注押在CUDA上。学习至少一个替代框架（Neuron SDK、Google JAX/TPU、Triton）不仅是职业保险，也能帮助你更深入地理解AI计算的底层原理。CUDA的抽象层隐藏了太多细节，而在自研芯片上工作会迫使你理解内存层次、通信拓扑和编译器优化——这些知识在任何平台上都有价值。

对投资者

Uber押注Trainium3是一个信号，表明AWS自研芯片的商业飞轮已经开始转动。关注以下指标来跟踪这个趋势的演进：

AWS财报中自研芯片相关收入的增长率（Amazon可能不会单独披露，但可以从Jassy的表态和AWS收入增速中推断）
NVIDIA数据中心业务的毛利率变化（如果开始下降，说明竞争压力正在传导到定价）——NVIDIA FY2025数据中心毛利率约为73%-76%，这是未来的关键监测指标
大型企业客户的云合同公告中是否越来越多地提及自研芯片
Neuron SDK的GitHub活跃度、PyPI下载量等社区指标

对产业观察者

2026年可能是AI计算产业格局的转折点。不是因为NVIDIA会突然失去统治地位——它不会。而是因为”后CUDA时代”的种子已经种下：云厂商的自研芯片在成本和垂直整合上建立了可持续的优势，大型企业客户开始用脚投票，资本市场开始为替代方案提供充足的资金。

一句话总结这篇文章的核心洞察：Uber选择Trainium3，不是因为它比NVIDIA的GPU更快，而是因为Uber的数据已经在AWS上——数据引力，而非芯片性能，才是决定AI计算格局的终极力量。

Uber选择Trainium3，不是一个企业的采购决策。它是一个时代的注脚。

参考资料

Uber is the latest to be won over by Amazon’s AI chips — TechCrunch, 2026-04-07
Anthropic announces Project Glasswing — Anthropic官方博客, 2026-04-07
Anthropic’s new model found security vulnerabilities in “every major operating system and browser” — The Verge, 2026-04-07
Anthropic touts AI cybersecurity project with big tech partners — Reuters, 2026-04-07
The AI gold rush is pulling private wealth into riskier, earlier bets — TechCrunch, 2026-04-07
New Graviton4-Powered Amazon EC2 Instances — AWS官方博客, 2024-05-01
NVIDIA Corporation Annual Report (10-K), Fiscal Year 2025 — 来源: SEC EDGAR (investor.nvidia.com), 2025-02
Uber Technologies, Inc. Annual Report (10-K), Fiscal Year 2025 — 来源: SEC EDGAR (investor.uber.com), 2026-02
Amazon.com, Inc. Annual Report (10-K), Fiscal Year 2025 — 来源: SEC EDGAR (ir.aboutamazon.com), 2026-02
Morgan Stanley Research, “AI Infrastructure: The Next Phase” — 来源: Morgan Stanley, 2025-03（付费报告，作者: Keith Weiss et al.）
Amazon and Anthropic Deepen Their Shared Commitment to Advancing Generative AI — Amazon Press Release, 2023-09-25
Next Generation Meta Training and Inference Accelerator — Meta Engineering Blog, 2024-04-10

主题分类：企业AI落地