一劈为二：当Google把最重要的AI芯片拆成两颗，训练与推理专用化时代正式开幕

一、一个意味深长的分裂

2026年4月22日，谷歌云大会（Google Cloud Next）的台上，Sundar Pichai披露了一系列令人印象深刻的数字：Google Cloud年收入700亿美元，同比增长48%；积压订单2400亿美元，一年内翻倍；Gemini用户达7.5亿。资本市场在消化这些数字的时候，一条看似低调的公告悄悄滑过了大多数人的视野：

Google宣布，其第8代TPU将首次拆分为两颗独立芯片——TPU 8t专门用于训练，TPU 8i专门用于推理。

这是Google自2015年开始自研TPU芯片以来，11年间从未做过的事。

在中文科技媒体的叙事里，这条消息被简单归类为”Google发布新AI芯片挑战英伟达”。但如果只看到这一层，就错过了这件事真正深刻的含义。Google把一颗芯片变成两颗，不只是工程决定，而是整个AI行业对于”计算是什么”这个问题的一次集体答复。

二、训练与推理：两件根本不同的事

要理解”一劈为二”背后的逻辑，需要先理解训练和推理是多么不同的两种工作。

训练，是教AI模型”学习”的过程。在训练阶段，系统需要处理数PB甚至更多的数据，对模型参数进行数以亿计的反向传播更新。每一步计算都依赖对庞大梯度矩阵的高带宽读写。训练任务可以接受相对较高的延迟——没有用户在实时等待——但对绝对计算吞吐量的需求极高。训练一个顶级基础模型，需要数千块GPU/TPU连续运行数周甚至数月。

推理，是AI模型”工作”的过程。当你向ChatGPT提问，Claude帮你写代码，或者一个企业Agent自动处理客户工单——这些都是推理。用户在实时等待结果，延迟从毫秒到秒级都有可能影响用户体验。推理的单次计算量通常远小于训练，但并发请求数量极大，而且对延迟极其敏感。

这两种工作对底层硬件的要求几乎是对立的：

训练芯片需要大量高带宽内存（HBM），支持数千个并行计算核心，以及低延迟的芯片间互联，用于多节点协同训练。核心诉求是：吞吐量，吞吐量，还是吞吐量。
推理芯片需要在芯片上集成大量静态随机存取内存（SRAM），以便快速读取模型权重和KV Cache（键值缓存）；同时需要支持极高并发——一次响应数以百万计的用户请求，每一次响应的延迟都需要控制在可接受的范围内。核心诉求是：低延迟，高并发，低单次成本。

长期以来，英伟达的GPU（A100、H100、H200）凭借其强大的并行计算能力和灵活的架构，承担着训练和推理两项任务。通用性是GPU的最大优势，但也是成本之所在：为了同时满足两种截然不同的需求，架构上必然存在妥协——你为推理付出了不必要的训练能力成本，同时也为训练付出了不必要的延迟优化代价。

Google在Cloud Next 2026的宣告，本质上是在说：我们决定不再为不需要的能力付代价了。

Google高级副总裁兼AI与基础设施首席技术官Amin Vahdat在官方博文中直接说明了决策逻辑：”硬件开发周期远长于软件。每一代TPU，我们都需要预判它们上市时市场上存在什么技术和需求。几年前，我们预见到随着前沿AI模型被大规模部署到生产环境，客户对推理的需求将会激增。而随着AI Agent的兴起，我们判断社区将从针对训练和服务需求各自专门化的芯片中受益。”

三、TPU 8t与8i：每一个数字背后的工程选择

让我们仔细看两颗芯片的规格，以及这些数字所揭示的工程思路：

TPU 8t（训练专用）：

与Broadcom合作设计，目标采用台积电2nm工艺，计划2027年底部署
训练性能：是上代Ironwood（第7代TPU）的2.8倍/同价格
支持100万+颗TPU在单个集群中协同工作
主要使用场景：训练Gemini等超大规模基础模型；高性能计算（Citadel Securities已用于量子研究）

TPU 8i（推理专用）：

与MediaTek合作设计，同样计划2027年底前推出
推理性价比：比上代提升80%
片上SRAM容量：384MB，是Ironwood的整整3倍
Sundar Pichai的官方表述：专为”以符合成本效益的方式并发运行数百万个Agent”而设计

384MB的SRAM数字，值得单独解释。

SRAM（静态随机存取内存）速度极快，但造价高昂、占用芯片面积大。传统AI芯片主要依赖HBM（高带宽内存），HBM虽然容量大，但带宽有上限，且每次访问都有不可忽视的延迟。

在大语言模型的推理过程中，每生成一个token，都需要读取此前所有token的”注意力”信息——这就是所谓的KV Cache。如果把这个缓存放在片上SRAM而不是外部HBM，读取速度可以快10倍乃至100倍，延迟从毫秒级降到微秒级。这对于Agent应用至关重要：一个正在处理复杂任务的Agent，需要在多步推理中保持一致的上下文状态，每一次”思考”都依赖对历史信息的极速访问。SRAM规模的扩大，直接决定了Agent能”记住”多长的推理链，以及在多高并发下保持低延迟。

从这个角度看，384MB SRAM不只是一个规格数字，而是Google对”Agent时代推理基础设施该长什么样”这个问题的具体工程答案。

四、SRAM战争：整个行业的集体共识

更有意思的是，Google并非孤独地站在SRAM路线上。

2026年3月，英伟达在GTC大会上发布了Groq 3 LPU。Groq是英伟达在2025年12月以约200亿美元收购的AI芯片初创公司，以其超低延迟的推理芯片著称——其核心秘密正是在芯片上集成了大量SRAM，彻底避免了HBM的带宽瓶颈。英伟达收购Groq，本质上是在承认：推理时代需要一种不同于训练时代的硬件哲学。

Cerebras——那家把一整块晶圆做成一颗超级芯片的另类公司——同样以极大的片上SRAM为卖点，最近刚刚重新提交IPO申请。它的Wafer Scale Engine用芯片面积换来了空前的片上内存，专为推理场景中的低延迟高并发设计。

换句话说，Google、英伟达（通过Groq）、Cerebras，三条不同路线上的芯片玩家，正在向同一个技术方向收敛：把尽量多的SRAM集成到芯片上，是推理时代降低延迟的核心路径。 这是一场方兴未艾的SRAM军备竞赛。

五、Amazon在2018年就开始这样做了，Google为何等了8年？

Google在2026年宣布的训练推理分离，并不是一个崭新的想法。Amazon Web Services在将近十年前就走上了这条路。

2018年，AWS在re:Invent大会上发布Inferentia——专门用于AI推理的自研芯片，强调低成本、高吞吐的推理性能。 2020年，AWS又发布Trainium——专门用于AI模型训练的芯片，优化大规模分布式训练场景。

两颗芯片，两个专用场景，比Google的TPU 8t/8i早了整整6至8年。

这里有一个合理的问题：Google为什么等了这么久？

一个合理的解释是，Google长期以来有一个”通吃”的野心——它既想用TPU训练自己的Gemini模型，又想向外部开发者提供能与英伟达GPU直接竞争的通用AI计算能力。专用化意味着放弃通用性，而Google在CUDA生态已被英伟达牢牢主导的情况下，TPU的通用性正是对外销售时的重要叙事。分裂成两颗专用芯片，反而可能削弱这一叙事。

另一个解释是技术需求的成熟度：推理经济只有在Agent应用真正大规模落地之后，才会变得足够重要、以至于值得单独设计专用硬件。2018年的AWS主要面向工具型AI（图像分类、翻译等）的推理需求，规模相对有限。2026年的Google面对的是百万Agent并发的推理海洋——完全不同的量级。Amin Vahdat在官方博文中说”我们预见到……客户对推理的需求将会激增”，隐含意思是：Google在几年前就预见了，但等到需求规模足够大时，才启动专用化的硬件周期。硬件开发周期远长于软件，这个等待本身就是策略。

这段历史同时带出了一个有意思的现实：Anthropic——Google最重要的战略投资对象，也是累计获得130亿美元Amazon投资的模型公司——同时深度使用着AWS Trainium和Google TPU。根据2026年4月的安排，Anthropic将获得高达100万颗Google TPU的使用权，同时也是AWS Trainium2的核心客户之一。Anthropic在两套训练推理分离架构上同时下注，这并非矛盾，而是深思熟虑的风险对冲：在AI基础设施战争格局未定之时，保持对多家云厂商的依赖，是防止被单一供应商锁定的理性选择。

这个选择也在侧面验证了一件事：训练/推理分离的专用化路线，已经被全球最顶尖的AI公司认可为可靠的技术方向。无论Google等待了多久，它今天的加入，是对这条路线的强力背书。

六、英伟达不害怕，但局面已在悄悄改变

2016年，芯片行业分析师Patrick Moorhead预测，Google的TPU将对英伟达（和英特尔）构成严重威胁。十年后，英伟达市值接近5万亿美元，成为全球最有价值的半导体公司，而这位分析师在Google发布TPU 8t/8i后，在X上发了一条调侃自己的帖子，说那个预言”没有经受住时间的检验”。

Moorhead的调侃揭示了一个重要的结构性事实：超大规模云厂商的自研芯片从未真正威胁到英伟达，因为AI计算的需求增长速度远超任何供给替代的速度。

Google自己也没有试图掩盖这一点。Google明确表态，TPU 8t/8i是英伟达芯片的”补充”而非”替代”。Google云将在今年晚些时候提供英伟达最新的Vera Rubin芯片。不仅如此，Google和英伟达还在合作优化Falcon软件定义网络——Falcon是2023年Google开源的数据中心网络技术，两家公司正在合作让英伟达系统在Google云上运行得更高效。

竞争者与合作者，这两个身份在AI基础设施的世界里并不矛盾，它们常常同时存在于同一组关系中。

但”局面已在悄悄改变”这句话也是真实的。

DA Davidson的分析师在2025年9月估计，Google的TPU业务加上DeepMind，价值约9000亿美元——相当于英伟达整体市值的近五分之一。这不是一个可以被忽视的量级。

更关键的长期逻辑在于推理经济学。训练是稀缺的、集中的——全球只有少数几家公司在训练真正的前沿大模型。推理是无处不在的、分散的——每一个用户请求，每一个Agent任务，每一次API调用，都是推理。随着AI Agent在企业端的大规模部署，推理请求的数量正在呈指数级增长：一个复杂的企业Agent处理一个工单，可能需要调用数十个子Agent，每个子Agent每次”思考”都是一次推理请求。

当推理成本占据云厂商AI总成本的主要部分，优化推理效率的自研推理芯片将直接转化为利润。Google选择现在将TPU专用化，是在为未来的推理经济提前布局。

值得注意的是，有一个反直觉的论点在这里成立：Google越是把TPU做得专用，英伟达GPU通用性的溢价就越高。 当Google TPU被明确定位为”Google Cloud内特定场景的最优芯片”，它就不再是英伟达面向全行业的竞争威胁，而只是一个细分场景的成本优化工具。需要跨云部署、CUDA生态、多模型架构的复杂工作负载，依然只能选择英伟达。专业化的分化，反而让通用计算的稀缺性上升。这是”专业化即和解”的竞争悖论。

七、百万Agent并发：Sundar Pichai的终局想象

Sundar Pichai在官方博文中写了这样一句话，被很多报道引用，但很少有人深究其真实含义：

“我们的目标是以符合成本效益的方式，支持数百万个Agent的并发运行。”

这句话描述的，是一个什么样的世界？

想象2027年的一家中型制造企业（以下场景为推测性描述，基于当前企业AI部署趋势外推）。它运行着数千个自主AI Agent：有的负责实时监控供应链异常，有的负责分析销售数据并生成周报，有的负责筛选简历并安排面试，有的负责跟进客户工单，有的负责将合规文件翻译成多国语言。这些Agent全天候运行，每隔几分钟甚至几秒就触发一次推理请求。

单一企业的Agent并发量可以达到数千甚至数万。当全球数百万家企业都在运行这样的Agent生态，整体并发推理请求的量级将达到今天无法想象的规模。

这就是为什么TPU 8i必须把SRAM扩大到384MB，并且专门优化”百万级Agent并发”——不是为了今天，而是为了2027年、2028年、2029年那个必然到来的Agent规模化时代。

Google、AWS、Microsoft、Anthropic——他们都在为同一个未来建设基础设施。不同的是实现路径：AWS选择了Trainium+Inferentia的双芯片路线；Google在踌躇了十年之后，于2026年正式加入这个阵营；英伟达通过收购Groq引入了LPU推理芯片，同时保留其GPU通用计算的核心优势。

八、专用化的下一步：不只是训练/推理

如果我们把视野再放远一些，训练/推理的分离可能只是AI基础设施专用化浪潮的第一波。

在AI Agent的工作流程中，有越来越多的研究者开始讨论更细粒度的专用化分工：

记忆存储与检索：Agent需要跨会话保持长期记忆，这是一个典型的图数据库或向量数据库操作，与模型推理本身是不同的计算模式。AWS正在将Amazon Neptune知识图谱和Mem0记忆管理整合进Bedrock Agent框架，本质上是在软件层面做记忆/推理的分离。未来是否会有专门优化图检索的”记忆芯片”？

规划与执行：复杂Agent任务通常分为”规划”（决定做什么）和”执行”（具体操作）两阶段。规划需要长上下文的多步推理，对延迟要求相对宽松；执行需要快速响应，对并发要求高。两者的芯片需求也可能分化。

多模态感知：随着AI Agent开始处理视觉、语音、文件等多模态输入，专用的感知加速器也在快速发展。Apple的Neural Engine、高通的NPU，都是这一方向的早期形态。

这些专用化的方向是否会在硬件层面落地，目前仍不确定。但方向已经明确：从通用计算到专用计算，这是AI基础设施发展的长期趋势。 正如软件行业从通用服务器走向数据库服务器、缓存服务器、消息队列服务器的专用化分工，AI硬件也在走向类似的道路。不同的只是，这一次的分工更细、演进更快，背后驱动力是Agent规模化带来的前所未有的工作负载多样性。AI时代的基础设施正在沿着工作负载分化的方向不可逆地演进，而不是向通用计算收敛。

Google把TPU一劈为二，是这个演进过程中的一个重要里程碑，而且很可能只是第一刀。

九、一个真实的成本计算：为什么专用化能赚钱

抽象的架构讨论之外，训练/推理分离是否真的在经济上更合算？让我们做一个简单的成本拆解。

以一家中型AI公司为例，每月运行100万次用户查询（推理），同时持续微调模型以改善性能（训练）。

在通用GPU路线下，你需要采购足够多的H100/H200来同时覆盖训练和推理峰值负载。问题在于，训练高峰和推理高峰往往不在同一时段：训练通常在夜间批量运行，推理峰值在工作日白天。结果是，大量GPU在非峰值时段处于低利用率状态，你在为闲置的计算能力付费。据市场行情，英伟达H100单卡云端租用价格因云厂商和配置差异，大致在每小时2至4美元的区间（实际合同价格可能更低），一个中等规模的混合训练推理集群，月度硬件成本相当可观。当推理时段只需要其中20%的算力，剩余80%处于空转状态时，浪费是真实存在的。

专用化路线带来的不只是性能提升，更是资源分配模式的根本改变。推理芯片可以按需弹性扩展，在用户流量高峰时快速部署更多推理节点，在低谷时缩减；训练集群则相对固定，定期集中运行。这种分离使得资源调度更加精确，避免了通用GPU集群那种”要么全占要么全放”的粗粒度资源管理。

在专用化路线下，推理芯片（如TPU 8i）针对高并发低延迟优化，单位推理成本降低80%；训练芯片（如TPU 8t）针对高吞吐优化，同等价格提供2.8倍训练性能。两颗芯片各司其职，资源利用率更高，总体拥有成本（TCO）显著下降。

Google对外公布的80%推理成本降低，即便只有一半是真实的，也意味着：当AI推理成为公司最大的IT支出项（这正在越来越多的AI原生企业中发生），专用推理芯片可以将这笔成本砍去三分之一到一半。在AI规模化落地的大趋势下，这不是工程追求，而是财务决策。

Merck签下的10亿美元Agent部署合同或许是一个风向标。一家制药巨头愿意为AI Agent应用一次性签下10亿美元合同，前提之一，是相信底层推理成本将持续下降，从而确保Agent应用的长期经济可行性。这种信任，部分来自于Google正在用TPU 8i提供的技术承诺：推理效率提升80%，意味着同样的预算，未来的AI应用可以做更多。

结语：一劈为二之后

2026年4月22日，Google正式宣布把第8代TPU劈成两颗。从外部看，这不过是一场云计算大会上众多公告中的一条。但从内部逻辑看，它标志着一个时代的分水岭：AI基础设施专用化的时代，正式开幕。

训练和推理，从此是两件不同的事，需要两种不同的芯片，两套不同的优化逻辑，两种不同的商业模式。

TPU 8t训练性能是上代的2.8倍；TPU 8i带来80%的推理成本降低；384MB SRAM支持百万级Agent并发；Google为此投入7.5亿美元建立合作伙伴生态；Merck签下10亿美元Agent部署合同；Anthropic承诺使用数GW级的Google TPU算力。

这些数字的背后，是一个简单而深刻的判断：当百万个AI Agent同时运转，基础设施必须足够专业，才能足够便宜，才能让这个Agent时代真正发生。

“一劈为二”，不是分裂，是精进。

参考资料:

一劈为二：当Google把最重要的AI芯片拆成两颗，训练与推理专用化时代正式开幕

一劈为二：当Google把最重要的AI芯片拆成两颗，训练与推理专用化时代正式开幕

一、一个意味深长的分裂

二、训练与推理：两件根本不同的事

三、TPU 8t与8i：每一个数字背后的工程选择

四、SRAM战争：整个行业的集体共识

五、Amazon在2018年就开始这样做了，Google为何等了8年？

六、英伟达不害怕，但局面已在悄悄改变

七、百万Agent并发：Sundar Pichai的终局想象

八、专用化的下一步：不只是训练/推理

九、一个真实的成本计算：为什么专用化能赚钱

结语：一劈为二之后

Tags:

About

Categories

Recent Posts

Resources