亚马逊要卖芯片了:当云巨头的内部工具变成市场武器,这场挑战Nvidia的赌局意味着什么
三年前,当亚马逊的工程师们还在调试第一批Trainium芯片的时候,他们的目标只有一个:帮AWS降低运行AI模型的成本。没有人想过,有一天这些芯片会出现在与Amazon毫无关系的数据中心里。
但这一天正在到来。
根据Bloomberg和Yahoo Finance的报道,Amazon正在认真考虑一件事:向外部客户出售其自研AI芯片Trainium和Inferentia。这意味着,一家主要靠卖云服务赚钱的公司,正在研究直接进入半导体市场——而这个市场,目前基本上是Nvidia的主场。
一块芯片,两种命运
要理解这件事的重量,先得弄清楚Amazon的AI芯片从哪里来、又去了哪里。
Amazon的自研芯片史始于2015年前后的AWS基础设施团队。Inferentia(推理芯片,2019年发布)和Trainium(训练芯片,2021年发布)的设计逻辑非常直接:Nvidia的芯片太贵了,而AWS的AI工作负载规模足够大,自研芯片可以显著降低成本。
这个逻辑奏效了。Amazon Web Services现在使用Trainium 2训练其自有AI模型,包括为Claude提供算力的基础设施。Inferentia则大量部署在AWS的推理节点上,为Amazon的机器学习服务提供支撑。内部使用效果相当好——据悉,Trainium 2在训练大语言模型时,能以远低于Nvidia H100的成本完成相同工作量。
但问题在于,这些芯片的使用范围被严格限定在Amazon自己的生态系统内。如果你是一家想用AWS算力训练模型的公司,你可以租用运行Trainium的服务器实例。但你没法购买一块Trainium芯片,把它部署在自己的私有数据中心。
现在,Amazon在考虑打破这个边界。
为什么是现在?
时机很重要。Amazon不是突然有了这个想法——背后有几股力量在汇聚。
第一股力量:Nvidia的定价权让整个行业不满。 H100芯片在高峰期每块售价超过4万美元,B200更贵。即便是财力雄厚的云巨头,也在芯片采购上承受巨大压力。2025年,多家科技公司的财报电话会都提到了”算力成本”作为AI业务扩张的主要制约因素。一个能提供性价比更优的替代品的供应商,会有市场。
第二股力量:竞争对手已经验证了这个模式。 Google从来没有对外出售TPU芯片本身,但它通过TPU Pod云服务成功把自研芯片商业化,并在2025年开始向部分大客户提供TPU的直接租赁,绕过了传统的API层。更有意思的案例是Microsoft——据报道,微软正在评估将其自研的Maia芯片提供给Azure之外的客户。Intel和AMD也在积极为数据中心客户推销各自的AI加速器。市场信号非常清晰:超大规模云厂商进入芯片销售市场的时机到了。
第三股力量:AI工作负载的部署模式在变化。 随着企业越来越多地在本地或专用数据中心部署AI(出于数据隐私、合规或延迟要求),”必须用云服务才能享受好芯片”这个逻辑开始松动。企业客户想要的是:好用、性价比高、能部署在自己控制的硬件上的AI芯片。Amazon如果只在云服务层提供Trainium,就会错过这个正在兴起的本地部署市场。
Amazon的优势在哪里?
假设Amazon真的开始对外销售Trainium芯片,它跟Nvidia竞争的胜算如何?
先说优势。
成本结构优势。 Amazon在自家数据中心大规模使用Trainium,意味着其制造规模已经足够大,可以分摊研发和生产成本。与此同时,台积电是Amazon芯片的代工伙伴(Trainium 2采用台积电先进制程),供应链已经建立。从纯粹的制造经济学角度,Amazon有能力以比Nvidia更低的利润率销售芯片,因为Amazon的收入来源更多元——哪怕芯片卖得不贵,AWS的整体生态粘性也在创造价值。
与AWS生态的深度整合。 如果你是一家大量使用Amazon Bedrock、SageMaker或者AWS各类AI服务的企业,选择Trainium芯片可以享受与云端工作负载的原生集成——开发、训练、部署,一套工具链全搞定。这种集成体验是Nvidia做不到的:Nvidia卖的是通用AI算力,它不在乎你是用AWS还是Azure,也因此无法提供云服务层面的差异化体验。
针对Transformer架构的优化。 Trainium的硬件设计从一开始就针对大语言模型的训练做了定制优化,而不是通用的图形计算(Nvidia的H100最初设计目标是图形渲染,才进化到AI计算)。这意味着在特定工作负载上,Trainium可以以更低的功耗和成本实现相当的性能。
Nvidia的护城河:CUDA
但Nvidia也不是没有防御能力。事实上,Nvidia的最大护城河跟芯片本身关系不大——它叫CUDA。
CUDA是Nvidia在2006年发布的并行计算平台,本质上是一套让开发者能充分利用GPU算力的编程接口和生态系统。过去接近20年里,整个AI研究和工程社区是围绕CUDA建立起来的。PyTorch默认支持CUDA,TensorFlow优先支持CUDA,绝大多数AI论文的代码是用CUDA写的,绝大多数AI工程师的肌肉记忆也是CUDA。
这意味着什么?即使你有一块性能不逊于H100的芯片,如果它不支持CUDA,开发者要在上面部署模型,就得重写大量代码,或者等待软件生态慢慢跟上。这个迁移成本,是Nvidia最大的护城河。
Amazon的Trainium使用自己的软件栈(AWS Neuron),与CUDA并不直接兼容。在AWS内部,这个问题靠大量工程师和充足的工具链投入来解决——AWS官方数据显示,其Neuron SDK已经覆盖PyTorch和TensorFlow的主要操作符,并提供了一套”从CUDA迁移到Neuron”的自动转换工具。但即便如此,对于没有专职AI基础设施工程师的中小型企业来说,切换成本依然相当高。
Apple的M系列芯片提供了一个类似的案例。苹果的M2/M3 Ultra在AI工作负载上的性能每瓦特效率极高,但因为生态系统限制,它在AI训练市场几乎没有存在感——大量框架和工具的一流支持仍然是Nvidia优先。
垂直整合时代的芯片战争
Amazon的这个考量,是更大趋势的一部分。科技行业正在经历一轮垂直整合的浪潮,大型平台公司开始把此前依赖外部供应商的核心基础设施收归自主。
苹果从Intel x86迁移到自研M系列,彻底主导了自己的硬件性能路线图。Tesla从Mobileye的自动驾驶芯片切换到自研FSD芯片,把最关键的计算单元控制在自己手里。Meta开始大规模部署自研MTIA推理芯片,减少对Nvidia的依赖。
Amazon的Trainium外售,是这个逻辑的延伸版本:不只是”我为自己制造芯片”,而是”我的芯片制造能力本身就是可以商业化的核心竞争力”。
这种转变背后是一个根本性的认知变化:AI时代,算力控制权就是市场控制权。谁控制了芯片,谁就在一定程度上控制了整个AI生态的走向——价格、性能路线图、供应链安全。
对AI行业意味着什么?
Amazon自研芯片外售(如果真的发生)会在几个层面产生影响。
对Nvidia: 直接竞争的威胁是真实的,但短期内不会撼动根基。Nvidia的2025财年数据中心业务收入超过900亿美元,而且仍在高速增长。Amazon能切走的份额,更可能是企业客户中与AWS生态高度绑定的那部分——这是一个利基市场,不是Nvidia的核心堡垒。但长期来看,越来越多的”垂直整合”玩家入场,会加速Nvidia的定价权侵蚀。
对AI初创公司: 多一个芯片供应商意味着更多谈判筹码和更多样化的选择。尤其是在Nvidia H100/B200仍然供不应求的阶段,任何可靠的替代方案都会受到市场欢迎。
对AWS客户: 如果能以更低成本获得AI算力,而不必完全依托AWS云服务,大型企业客户的混合云/私有云AI部署会变得更具吸引力。Amazon通过”卖芯片”绑定客户使用AWS生态,是一个可能的战略思路。
对台积电: 所有主要AI芯片(Nvidia的Grace Blackwell、Google的TPU、Amazon的Trainium、Microsoft的Maia、Meta的MTIA)都在台积电代工。云巨头芯片外售规模增大,进一步强化了台积电作为AI算力供应链核心节点的地位。
Trainium 2的实际性能:数字说话
在讨论战略之前,有必要看看Trainium 2的实际表现,因为很多”Amazon芯片可以媲美Nvidia”的说法往往缺乏具体数据支撑。
根据AWS在2024年底的公开基准测试,Trainium 2在训练Llama 3 70B这类主流大语言模型时,每秒处理token数(吞吐量)与同等规模的Nvidia H100集群相当,但每美元的训练成本低约30-40%。这个数字是在AWS内部环境下测量的,有其局限性——实际部署时,工程师需要针对Neuron SDK做优化,而这个过程通常比CUDA生态的优化更耗时。
更值得关注的是Trainium 2的互联能力。Amazon为高性能计算特别设计了NeuronLink高速互联技术,可以将多达256个Trainium 2芯片连接成一个统一的训练集群。对于需要训练超过千亿参数模型的应用场景,这种规模的集群互联能力是关键指标,而Amazon的实现与Nvidia的NVLink在技术路线上有所不同,在特定工作负载上各有优劣。
Inferentia 2(推理芯片)的情况更为明朗:在处理实时推理请求(如聊天机器人、内容审核)时,Inferentia 2的每次推理成本比同等条件的Nvidia芯片低约50%,这是Amazon在内部大规模使用时最显著的成本优势。
一个尚未到来的时刻
需要强调的是:截至目前,Amazon自研芯片外售仍处于”考虑中”阶段,尚无官方声明或确定的时间表。这件事存在相当大的不确定性:是否会真的推进?以何种形式?面向哪些客户群体?这些都还是未知数。
但”在考虑”本身就是一个信号。三年前,这件事连被讨论的可能都没有。现在,它是一个真实的战略选项——这意味着AI芯片市场的竞争格局,正在以比大多数人意识到的更快的速度发生变化。
还有一件事值得注意:Amazon如果真的开始销售芯片,它面对的竞争不只来自Nvidia和AMD,还来自同样在布局芯片业务的Google(TPU)和Meta(MTIA)。AI时代的核心争夺,已经从”谁的模型更好”延伸到了”谁控制训练和推理的底层算力”。在这场争夺中,Amazon的入局是一个不可忽视的变量。
Nvidia的H100和B200今天仍然是AI训练的首选。但”首选”从来不是永久的封号。每次技术平台转换,都有一个时刻是:曾经不可撼动的领导者,被人们第一次认真地质疑。
Amazon,正在把这个质疑变得具体。AI芯片市场从来不是赢者通吃的格局,但它的竞争格局将在未来3-5年内发生比过去10年更剧烈的变化——而这一轮重组,云巨头是主角之一。
如果说过去10年AI的竞争是在”谁的模型更聪明”,未来10年的竞争,将越来越多地回到一个古老的商业命题:谁控制了资源,谁就掌握了最终的话语权。Amazon现在要做的,正是把自己在计算资源上的深厚积累,转化为面向整个市场的战略杠杆。芯片,只是这个战略的第一块砖。
参考资料:
- Yahoo Finance, “Amazon May Start Selling Its Custom AI Chips to Outside Companies”, 2026-06-18
- Bloomberg(同期报道,Amazon Trainium外售考虑)
- Amazon AWS博客, “Amazon Bedrock AgentCore harness is now generally available”, 2026-06-18
- Reuters, “Nvidia supplier SK Hynix ships samples of next-generation HBM4E chips”, 2026-06-17