亚马逊要卖芯片了：当云巨头的内部工具变成市场武器，这场挑战Nvidia的赌局意味着什么

三年前，当亚马逊的工程师们还在调试第一批Trainium芯片的时候，他们的目标只有一个：帮AWS降低运行AI模型的成本。没有人想过，有一天这些芯片会出现在与Amazon毫无关系的数据中心里。

但这一天正在到来。

根据Bloomberg和Yahoo Finance的报道，Amazon正在认真考虑一件事：向外部客户出售其自研AI芯片Trainium和Inferentia。这意味着，一家主要靠卖云服务赚钱的公司，正在研究直接进入半导体市场——而这个市场，目前基本上是Nvidia的主场。

一块芯片，两种命运

要理解这件事的重量，先得弄清楚Amazon的AI芯片从哪里来、又去了哪里。

Amazon的自研芯片史始于2015年前后的AWS基础设施团队。Inferentia（推理芯片，2019年发布）和Trainium（训练芯片，2021年发布）的设计逻辑非常直接：Nvidia的芯片太贵了，而AWS的AI工作负载规模足够大，自研芯片可以显著降低成本。

这个逻辑奏效了。Amazon Web Services现在使用Trainium 2训练其自有AI模型，包括为Claude提供算力的基础设施。Inferentia则大量部署在AWS的推理节点上，为Amazon的机器学习服务提供支撑。内部使用效果相当好——据悉，Trainium 2在训练大语言模型时，能以远低于Nvidia H100的成本完成相同工作量。

但问题在于，这些芯片的使用范围被严格限定在Amazon自己的生态系统内。如果你是一家想用AWS算力训练模型的公司，你可以租用运行Trainium的服务器实例。但你没法购买一块Trainium芯片，把它部署在自己的私有数据中心。

现在，Amazon在考虑打破这个边界。

为什么是现在？

时机很重要。Amazon不是突然有了这个想法——背后有几股力量在汇聚。

第一股力量：Nvidia的定价权让整个行业不满。 H100芯片在高峰期每块售价超过4万美元，B200更贵。即便是财力雄厚的云巨头，也在芯片采购上承受巨大压力。2025年，多家科技公司的财报电话会都提到了”算力成本”作为AI业务扩张的主要制约因素。一个能提供性价比更优的替代品的供应商，会有市场。

第二股力量：竞争对手已经验证了这个模式。 Google从来没有对外出售TPU芯片本身，但它通过TPU Pod云服务成功把自研芯片商业化，并在2025年开始向部分大客户提供TPU的直接租赁，绕过了传统的API层。更有意思的案例是Microsoft——据报道，微软正在评估将其自研的Maia芯片提供给Azure之外的客户。Intel和AMD也在积极为数据中心客户推销各自的AI加速器。市场信号非常清晰：超大规模云厂商进入芯片销售市场的时机到了。

第三股力量：AI工作负载的部署模式在变化。 随着企业越来越多地在本地或专用数据中心部署AI（出于数据隐私、合规或延迟要求），”必须用云服务才能享受好芯片”这个逻辑开始松动。企业客户想要的是：好用、性价比高、能部署在自己控制的硬件上的AI芯片。Amazon如果只在云服务层提供Trainium，就会错过这个正在兴起的本地部署市场。

Amazon的优势在哪里？

假设Amazon真的开始对外销售Trainium芯片，它跟Nvidia竞争的胜算如何？

先说优势。

成本结构优势。 Amazon在自家数据中心大规模使用Trainium，意味着其制造规模已经足够大，可以分摊研发和生产成本。与此同时，台积电是Amazon芯片的代工伙伴（Trainium 2采用台积电先进制程），供应链已经建立。从纯粹的制造经济学角度，Amazon有能力以比Nvidia更低的利润率销售芯片，因为Amazon的收入来源更多元——哪怕芯片卖得不贵，AWS的整体生态粘性也在创造价值。

与AWS生态的深度整合。 如果你是一家大量使用Amazon Bedrock、SageMaker或者AWS各类AI服务的企业，选择Trainium芯片可以享受与云端工作负载的原生集成——开发、训练、部署，一套工具链全搞定。这种集成体验是Nvidia做不到的：Nvidia卖的是通用AI算力，它不在乎你是用AWS还是Azure，也因此无法提供云服务层面的差异化体验。

针对Transformer架构的优化。 Trainium的硬件设计从一开始就针对大语言模型的训练做了定制优化，而不是通用的图形计算（Nvidia的H100最初设计目标是图形渲染，才进化到AI计算）。这意味着在特定工作负载上，Trainium可以以更低的功耗和成本实现相当的性能。

Nvidia的护城河：CUDA

但Nvidia也不是没有防御能力。事实上，Nvidia的最大护城河跟芯片本身关系不大——它叫CUDA。

CUDA是Nvidia在2006年发布的并行计算平台，本质上是一套让开发者能充分利用GPU算力的编程接口和生态系统。过去接近20年里，整个AI研究和工程社区是围绕CUDA建立起来的。PyTorch默认支持CUDA，TensorFlow优先支持CUDA，绝大多数AI论文的代码是用CUDA写的，绝大多数AI工程师的肌肉记忆也是CUDA。

这意味着什么？即使你有一块性能不逊于H100的芯片，如果它不支持CUDA，开发者要在上面部署模型，就得重写大量代码，或者等待软件生态慢慢跟上。这个迁移成本，是Nvidia最大的护城河。

Amazon的Trainium使用自己的软件栈（AWS Neuron），与CUDA并不直接兼容。在AWS内部，这个问题靠大量工程师和充足的工具链投入来解决——AWS官方数据显示，其Neuron SDK已经覆盖PyTorch和TensorFlow的主要操作符，并提供了一套”从CUDA迁移到Neuron”的自动转换工具。但即便如此，对于没有专职AI基础设施工程师的中小型企业来说，切换成本依然相当高。

Apple的M系列芯片提供了一个类似的案例。苹果的M2/M3 Ultra在AI工作负载上的性能每瓦特效率极高，但因为生态系统限制，它在AI训练市场几乎没有存在感——大量框架和工具的一流支持仍然是Nvidia优先。

垂直整合时代的芯片战争

Amazon的这个考量，是更大趋势的一部分。科技行业正在经历一轮垂直整合的浪潮，大型平台公司开始把此前依赖外部供应商的核心基础设施收归自主。

苹果从Intel x86迁移到自研M系列，彻底主导了自己的硬件性能路线图。Tesla从Mobileye的自动驾驶芯片切换到自研FSD芯片，把最关键的计算单元控制在自己手里。Meta开始大规模部署自研MTIA推理芯片，减少对Nvidia的依赖。

Amazon的Trainium外售，是这个逻辑的延伸版本：不只是”我为自己制造芯片”，而是”我的芯片制造能力本身就是可以商业化的核心竞争力”。

这种转变背后是一个根本性的认知变化：AI时代，算力控制权就是市场控制权。谁控制了芯片，谁就在一定程度上控制了整个AI生态的走向——价格、性能路线图、供应链安全。

对AI行业意味着什么？

Amazon自研芯片外售（如果真的发生）会在几个层面产生影响。

对Nvidia： 直接竞争的威胁是真实的，但短期内不会撼动根基。Nvidia的2025财年数据中心业务收入超过900亿美元，而且仍在高速增长。Amazon能切走的份额，更可能是企业客户中与AWS生态高度绑定的那部分——这是一个利基市场，不是Nvidia的核心堡垒。但长期来看，越来越多的”垂直整合”玩家入场，会加速Nvidia的定价权侵蚀。

对AI初创公司： 多一个芯片供应商意味着更多谈判筹码和更多样化的选择。尤其是在Nvidia H100/B200仍然供不应求的阶段，任何可靠的替代方案都会受到市场欢迎。

对AWS客户： 如果能以更低成本获得AI算力，而不必完全依托AWS云服务，大型企业客户的混合云/私有云AI部署会变得更具吸引力。Amazon通过”卖芯片”绑定客户使用AWS生态，是一个可能的战略思路。

对台积电： 所有主要AI芯片（Nvidia的Grace Blackwell、Google的TPU、Amazon的Trainium、Microsoft的Maia、Meta的MTIA）都在台积电代工。云巨头芯片外售规模增大，进一步强化了台积电作为AI算力供应链核心节点的地位。

Trainium 2的实际性能：数字说话

在讨论战略之前，有必要看看Trainium 2的实际表现，因为很多”Amazon芯片可以媲美Nvidia”的说法往往缺乏具体数据支撑。

根据AWS在2024年底的公开基准测试，Trainium 2在训练Llama 3 70B这类主流大语言模型时，每秒处理token数（吞吐量）与同等规模的Nvidia H100集群相当，但每美元的训练成本低约30-40%。这个数字是在AWS内部环境下测量的，有其局限性——实际部署时，工程师需要针对Neuron SDK做优化，而这个过程通常比CUDA生态的优化更耗时。

更值得关注的是Trainium 2的互联能力。Amazon为高性能计算特别设计了NeuronLink高速互联技术，可以将多达256个Trainium 2芯片连接成一个统一的训练集群。对于需要训练超过千亿参数模型的应用场景，这种规模的集群互联能力是关键指标，而Amazon的实现与Nvidia的NVLink在技术路线上有所不同，在特定工作负载上各有优劣。

Inferentia 2（推理芯片）的情况更为明朗：在处理实时推理请求（如聊天机器人、内容审核）时，Inferentia 2的每次推理成本比同等条件的Nvidia芯片低约50%，这是Amazon在内部大规模使用时最显著的成本优势。

一个尚未到来的时刻

需要强调的是：截至目前，Amazon自研芯片外售仍处于”考虑中”阶段，尚无官方声明或确定的时间表。这件事存在相当大的不确定性：是否会真的推进？以何种形式？面向哪些客户群体？这些都还是未知数。

但”在考虑”本身就是一个信号。三年前，这件事连被讨论的可能都没有。现在，它是一个真实的战略选项——这意味着AI芯片市场的竞争格局，正在以比大多数人意识到的更快的速度发生变化。

还有一件事值得注意：Amazon如果真的开始销售芯片，它面对的竞争不只来自Nvidia和AMD，还来自同样在布局芯片业务的Google（TPU）和Meta（MTIA）。AI时代的核心争夺，已经从”谁的模型更好”延伸到了”谁控制训练和推理的底层算力”。在这场争夺中，Amazon的入局是一个不可忽视的变量。

Nvidia的H100和B200今天仍然是AI训练的首选。但”首选”从来不是永久的封号。每次技术平台转换，都有一个时刻是：曾经不可撼动的领导者，被人们第一次认真地质疑。

Amazon，正在把这个质疑变得具体。AI芯片市场从来不是赢者通吃的格局，但它的竞争格局将在未来3-5年内发生比过去10年更剧烈的变化——而这一轮重组，云巨头是主角之一。

如果说过去10年AI的竞争是在”谁的模型更聪明”，未来10年的竞争，将越来越多地回到一个古老的商业命题：谁控制了资源，谁就掌握了最终的话语权。Amazon现在要做的，正是把自己在计算资源上的深厚积累，转化为面向整个市场的战略杠杆。芯片，只是这个战略的第一块砖。

参考资料：

Yahoo Finance, “Amazon May Start Selling Its Custom AI Chips to Outside Companies”, 2026-06-18
Bloomberg（同期报道，Amazon Trainium外售考虑）
Amazon AWS博客, “Amazon Bedrock AgentCore harness is now generally available”, 2026-06-18
Reuters, “Nvidia supplier SK Hynix ships samples of next-generation HBM4E chips”, 2026-06-17

亚马逊要卖芯片了：当云巨头的内部工具变成市场武器，这场挑战Nvidia的赌局意味着什么

一块芯片，两种命运

为什么是现在？

Amazon的优势在哪里？

Nvidia的护城河：CUDA

垂直整合时代的芯片战争

对AI行业意味着什么？

Trainium 2的实际性能：数字说话

一个尚未到来的时刻

Tags:

About

Categories

Recent Posts

Resources