一劈为二:当Google把最重要的AI芯片拆成两颗,训练与推理专用化时代正式开幕


一、一个意味深长的分裂

2026年4月22日,谷歌云大会(Google Cloud Next)的台上,Sundar Pichai披露了一系列令人印象深刻的数字:Google Cloud年收入700亿美元,同比增长48%;积压订单2400亿美元,一年内翻倍;Gemini用户达7.5亿。资本市场在消化这些数字的时候,一条看似低调的公告悄悄滑过了大多数人的视野:

Google宣布,其第8代TPU将首次拆分为两颗独立芯片——TPU 8t专门用于训练,TPU 8i专门用于推理。

这是Google自2015年开始自研TPU芯片以来,11年间从未做过的事。

在中文科技媒体的叙事里,这条消息被简单归类为”Google发布新AI芯片挑战英伟达”。但如果只看到这一层,就错过了这件事真正深刻的含义。Google把一颗芯片变成两颗,不只是工程决定,而是整个AI行业对于”计算是什么”这个问题的一次集体答复。


二、训练与推理:两件根本不同的事

要理解”一劈为二”背后的逻辑,需要先理解训练和推理是多么不同的两种工作。

训练,是教AI模型”学习”的过程。在训练阶段,系统需要处理数PB甚至更多的数据,对模型参数进行数以亿计的反向传播更新。每一步计算都依赖对庞大梯度矩阵的高带宽读写。训练任务可以接受相对较高的延迟——没有用户在实时等待——但对绝对计算吞吐量的需求极高。训练一个顶级基础模型,需要数千块GPU/TPU连续运行数周甚至数月。

推理,是AI模型”工作”的过程。当你向ChatGPT提问,Claude帮你写代码,或者一个企业Agent自动处理客户工单——这些都是推理。用户在实时等待结果,延迟从毫秒到秒级都有可能影响用户体验。推理的单次计算量通常远小于训练,但并发请求数量极大,而且对延迟极其敏感。

这两种工作对底层硬件的要求几乎是对立的:

  • 训练芯片需要大量高带宽内存(HBM),支持数千个并行计算核心,以及低延迟的芯片间互联,用于多节点协同训练。核心诉求是:吞吐量,吞吐量,还是吞吐量。

  • 推理芯片需要在芯片上集成大量静态随机存取内存(SRAM),以便快速读取模型权重和KV Cache(键值缓存);同时需要支持极高并发——一次响应数以百万计的用户请求,每一次响应的延迟都需要控制在可接受的范围内。核心诉求是:低延迟,高并发,低单次成本。

长期以来,英伟达的GPU(A100、H100、H200)凭借其强大的并行计算能力和灵活的架构,承担着训练和推理两项任务。通用性是GPU的最大优势,但也是成本之所在:为了同时满足两种截然不同的需求,架构上必然存在妥协——你为推理付出了不必要的训练能力成本,同时也为训练付出了不必要的延迟优化代价。

Google在Cloud Next 2026的宣告,本质上是在说:我们决定不再为不需要的能力付代价了。

Google高级副总裁兼AI与基础设施首席技术官Amin Vahdat在官方博文中直接说明了决策逻辑:”硬件开发周期远长于软件。每一代TPU,我们都需要预判它们上市时市场上存在什么技术和需求。几年前,我们预见到随着前沿AI模型被大规模部署到生产环境,客户对推理的需求将会激增。而随着AI Agent的兴起,我们判断社区将从针对训练和服务需求各自专门化的芯片中受益。”


三、TPU 8t与8i:每一个数字背后的工程选择

让我们仔细看两颗芯片的规格,以及这些数字所揭示的工程思路:

TPU 8t(训练专用)

  • 与Broadcom合作设计,目标采用台积电2nm工艺,计划2027年底部署
  • 训练性能:是上代Ironwood(第7代TPU)的2.8倍/同价格
  • 支持100万+颗TPU在单个集群中协同工作
  • 主要使用场景:训练Gemini等超大规模基础模型;高性能计算(Citadel Securities已用于量子研究)

TPU 8i(推理专用)

  • 与MediaTek合作设计,同样计划2027年底前推出
  • 推理性价比:比上代提升80%
  • 片上SRAM容量:384MB,是Ironwood的整整3倍
  • Sundar Pichai的官方表述:专为”以符合成本效益的方式并发运行数百万个Agent”而设计

384MB的SRAM数字,值得单独解释。

SRAM(静态随机存取内存)速度极快,但造价高昂、占用芯片面积大。传统AI芯片主要依赖HBM(高带宽内存),HBM虽然容量大,但带宽有上限,且每次访问都有不可忽视的延迟。

在大语言模型的推理过程中,每生成一个token,都需要读取此前所有token的”注意力”信息——这就是所谓的KV Cache。如果把这个缓存放在片上SRAM而不是外部HBM,读取速度可以快10倍乃至100倍,延迟从毫秒级降到微秒级。这对于Agent应用至关重要:一个正在处理复杂任务的Agent,需要在多步推理中保持一致的上下文状态,每一次”思考”都依赖对历史信息的极速访问。SRAM规模的扩大,直接决定了Agent能”记住”多长的推理链,以及在多高并发下保持低延迟。

从这个角度看,384MB SRAM不只是一个规格数字,而是Google对”Agent时代推理基础设施该长什么样”这个问题的具体工程答案。


四、SRAM战争:整个行业的集体共识

更有意思的是,Google并非孤独地站在SRAM路线上。

2026年3月,英伟达在GTC大会上发布了Groq 3 LPU。Groq是英伟达在2025年12月以约200亿美元收购的AI芯片初创公司,以其超低延迟的推理芯片著称——其核心秘密正是在芯片上集成了大量SRAM,彻底避免了HBM的带宽瓶颈。英伟达收购Groq,本质上是在承认:推理时代需要一种不同于训练时代的硬件哲学。

Cerebras——那家把一整块晶圆做成一颗超级芯片的另类公司——同样以极大的片上SRAM为卖点,最近刚刚重新提交IPO申请。它的Wafer Scale Engine用芯片面积换来了空前的片上内存,专为推理场景中的低延迟高并发设计。

换句话说,Google、英伟达(通过Groq)、Cerebras,三条不同路线上的芯片玩家,正在向同一个技术方向收敛:把尽量多的SRAM集成到芯片上,是推理时代降低延迟的核心路径。 这是一场方兴未艾的SRAM军备竞赛。


五、Amazon在2018年就开始这样做了,Google为何等了8年?

Google在2026年宣布的训练推理分离,并不是一个崭新的想法。Amazon Web Services在将近十年前就走上了这条路。

2018年,AWS在re:Invent大会上发布Inferentia——专门用于AI推理的自研芯片,强调低成本、高吞吐的推理性能。 2020年,AWS又发布Trainium——专门用于AI模型训练的芯片,优化大规模分布式训练场景。

两颗芯片,两个专用场景,比Google的TPU 8t/8i早了整整6至8年。

这里有一个合理的问题:Google为什么等了这么久?

一个合理的解释是,Google长期以来有一个”通吃”的野心——它既想用TPU训练自己的Gemini模型,又想向外部开发者提供能与英伟达GPU直接竞争的通用AI计算能力。专用化意味着放弃通用性,而Google在CUDA生态已被英伟达牢牢主导的情况下,TPU的通用性正是对外销售时的重要叙事。分裂成两颗专用芯片,反而可能削弱这一叙事。

另一个解释是技术需求的成熟度:推理经济只有在Agent应用真正大规模落地之后,才会变得足够重要、以至于值得单独设计专用硬件。2018年的AWS主要面向工具型AI(图像分类、翻译等)的推理需求,规模相对有限。2026年的Google面对的是百万Agent并发的推理海洋——完全不同的量级。Amin Vahdat在官方博文中说”我们预见到……客户对推理的需求将会激增”,隐含意思是:Google在几年前就预见了,但等到需求规模足够大时,才启动专用化的硬件周期。硬件开发周期远长于软件,这个等待本身就是策略。

这段历史同时带出了一个有意思的现实:Anthropic——Google最重要的战略投资对象,也是累计获得130亿美元Amazon投资的模型公司——同时深度使用着AWS Trainium和Google TPU。根据2026年4月的安排,Anthropic将获得高达100万颗Google TPU的使用权,同时也是AWS Trainium2的核心客户之一。Anthropic在两套训练推理分离架构上同时下注,这并非矛盾,而是深思熟虑的风险对冲:在AI基础设施战争格局未定之时,保持对多家云厂商的依赖,是防止被单一供应商锁定的理性选择。

这个选择也在侧面验证了一件事:训练/推理分离的专用化路线,已经被全球最顶尖的AI公司认可为可靠的技术方向。无论Google等待了多久,它今天的加入,是对这条路线的强力背书。


六、英伟达不害怕,但局面已在悄悄改变

2016年,芯片行业分析师Patrick Moorhead预测,Google的TPU将对英伟达(和英特尔)构成严重威胁。十年后,英伟达市值接近5万亿美元,成为全球最有价值的半导体公司,而这位分析师在Google发布TPU 8t/8i后,在X上发了一条调侃自己的帖子,说那个预言”没有经受住时间的检验”。

Moorhead的调侃揭示了一个重要的结构性事实:超大规模云厂商的自研芯片从未真正威胁到英伟达,因为AI计算的需求增长速度远超任何供给替代的速度。

Google自己也没有试图掩盖这一点。Google明确表态,TPU 8t/8i是英伟达芯片的”补充”而非”替代”。Google云将在今年晚些时候提供英伟达最新的Vera Rubin芯片。不仅如此,Google和英伟达还在合作优化Falcon软件定义网络——Falcon是2023年Google开源的数据中心网络技术,两家公司正在合作让英伟达系统在Google云上运行得更高效。

竞争者与合作者,这两个身份在AI基础设施的世界里并不矛盾,它们常常同时存在于同一组关系中。

但”局面已在悄悄改变”这句话也是真实的。

DA Davidson的分析师在2025年9月估计,Google的TPU业务加上DeepMind,价值约9000亿美元——相当于英伟达整体市值的近五分之一。这不是一个可以被忽视的量级。

更关键的长期逻辑在于推理经济学。训练是稀缺的、集中的——全球只有少数几家公司在训练真正的前沿大模型。推理是无处不在的、分散的——每一个用户请求,每一个Agent任务,每一次API调用,都是推理。随着AI Agent在企业端的大规模部署,推理请求的数量正在呈指数级增长:一个复杂的企业Agent处理一个工单,可能需要调用数十个子Agent,每个子Agent每次”思考”都是一次推理请求。

当推理成本占据云厂商AI总成本的主要部分,优化推理效率的自研推理芯片将直接转化为利润。Google选择现在将TPU专用化,是在为未来的推理经济提前布局。

值得注意的是,有一个反直觉的论点在这里成立:Google越是把TPU做得专用,英伟达GPU通用性的溢价就越高。 当Google TPU被明确定位为”Google Cloud内特定场景的最优芯片”,它就不再是英伟达面向全行业的竞争威胁,而只是一个细分场景的成本优化工具。需要跨云部署、CUDA生态、多模型架构的复杂工作负载,依然只能选择英伟达。专业化的分化,反而让通用计算的稀缺性上升。这是”专业化即和解”的竞争悖论。


七、百万Agent并发:Sundar Pichai的终局想象

Sundar Pichai在官方博文中写了这样一句话,被很多报道引用,但很少有人深究其真实含义:

“我们的目标是以符合成本效益的方式,支持数百万个Agent的并发运行。”

这句话描述的,是一个什么样的世界?

想象2027年的一家中型制造企业(以下场景为推测性描述,基于当前企业AI部署趋势外推)。它运行着数千个自主AI Agent:有的负责实时监控供应链异常,有的负责分析销售数据并生成周报,有的负责筛选简历并安排面试,有的负责跟进客户工单,有的负责将合规文件翻译成多国语言。这些Agent全天候运行,每隔几分钟甚至几秒就触发一次推理请求。

单一企业的Agent并发量可以达到数千甚至数万。当全球数百万家企业都在运行这样的Agent生态,整体并发推理请求的量级将达到今天无法想象的规模。

这就是为什么TPU 8i必须把SRAM扩大到384MB,并且专门优化”百万级Agent并发”——不是为了今天,而是为了2027年、2028年、2029年那个必然到来的Agent规模化时代。

Google、AWS、Microsoft、Anthropic——他们都在为同一个未来建设基础设施。不同的是实现路径:AWS选择了Trainium+Inferentia的双芯片路线;Google在踌躇了十年之后,于2026年正式加入这个阵营;英伟达通过收购Groq引入了LPU推理芯片,同时保留其GPU通用计算的核心优势。


八、专用化的下一步:不只是训练/推理

如果我们把视野再放远一些,训练/推理的分离可能只是AI基础设施专用化浪潮的第一波。

在AI Agent的工作流程中,有越来越多的研究者开始讨论更细粒度的专用化分工:

记忆存储与检索:Agent需要跨会话保持长期记忆,这是一个典型的图数据库或向量数据库操作,与模型推理本身是不同的计算模式。AWS正在将Amazon Neptune知识图谱和Mem0记忆管理整合进Bedrock Agent框架,本质上是在软件层面做记忆/推理的分离。未来是否会有专门优化图检索的”记忆芯片”?

规划与执行:复杂Agent任务通常分为”规划”(决定做什么)和”执行”(具体操作)两阶段。规划需要长上下文的多步推理,对延迟要求相对宽松;执行需要快速响应,对并发要求高。两者的芯片需求也可能分化。

多模态感知:随着AI Agent开始处理视觉、语音、文件等多模态输入,专用的感知加速器也在快速发展。Apple的Neural Engine、高通的NPU,都是这一方向的早期形态。

这些专用化的方向是否会在硬件层面落地,目前仍不确定。但方向已经明确:从通用计算到专用计算,这是AI基础设施发展的长期趋势。 正如软件行业从通用服务器走向数据库服务器、缓存服务器、消息队列服务器的专用化分工,AI硬件也在走向类似的道路。不同的只是,这一次的分工更细、演进更快,背后驱动力是Agent规模化带来的前所未有的工作负载多样性。AI时代的基础设施正在沿着工作负载分化的方向不可逆地演进,而不是向通用计算收敛。

Google把TPU一劈为二,是这个演进过程中的一个重要里程碑,而且很可能只是第一刀。


九、一个真实的成本计算:为什么专用化能赚钱

抽象的架构讨论之外,训练/推理分离是否真的在经济上更合算?让我们做一个简单的成本拆解。

以一家中型AI公司为例,每月运行100万次用户查询(推理),同时持续微调模型以改善性能(训练)。

在通用GPU路线下,你需要采购足够多的H100/H200来同时覆盖训练和推理峰值负载。问题在于,训练高峰和推理高峰往往不在同一时段:训练通常在夜间批量运行,推理峰值在工作日白天。结果是,大量GPU在非峰值时段处于低利用率状态,你在为闲置的计算能力付费。据市场行情,英伟达H100单卡云端租用价格因云厂商和配置差异,大致在每小时2至4美元的区间(实际合同价格可能更低),一个中等规模的混合训练推理集群,月度硬件成本相当可观。当推理时段只需要其中20%的算力,剩余80%处于空转状态时,浪费是真实存在的。

专用化路线带来的不只是性能提升,更是资源分配模式的根本改变。推理芯片可以按需弹性扩展,在用户流量高峰时快速部署更多推理节点,在低谷时缩减;训练集群则相对固定,定期集中运行。这种分离使得资源调度更加精确,避免了通用GPU集群那种”要么全占要么全放”的粗粒度资源管理。

在专用化路线下,推理芯片(如TPU 8i)针对高并发低延迟优化,单位推理成本降低80%;训练芯片(如TPU 8t)针对高吞吐优化,同等价格提供2.8倍训练性能。两颗芯片各司其职,资源利用率更高,总体拥有成本(TCO)显著下降。

Google对外公布的80%推理成本降低,即便只有一半是真实的,也意味着:当AI推理成为公司最大的IT支出项(这正在越来越多的AI原生企业中发生),专用推理芯片可以将这笔成本砍去三分之一到一半。在AI规模化落地的大趋势下,这不是工程追求,而是财务决策。

Merck签下的10亿美元Agent部署合同或许是一个风向标。一家制药巨头愿意为AI Agent应用一次性签下10亿美元合同,前提之一,是相信底层推理成本将持续下降,从而确保Agent应用的长期经济可行性。这种信任,部分来自于Google正在用TPU 8i提供的技术承诺:推理效率提升80%,意味着同样的预算,未来的AI应用可以做更多。


结语:一劈为二之后

2026年4月22日,Google正式宣布把第8代TPU劈成两颗。从外部看,这不过是一场云计算大会上众多公告中的一条。但从内部逻辑看,它标志着一个时代的分水岭:AI基础设施专用化的时代,正式开幕。

训练和推理,从此是两件不同的事,需要两种不同的芯片,两套不同的优化逻辑,两种不同的商业模式。

TPU 8t训练性能是上代的2.8倍;TPU 8i带来80%的推理成本降低;384MB SRAM支持百万级Agent并发;Google为此投入7.5亿美元建立合作伙伴生态;Merck签下10亿美元Agent部署合同;Anthropic承诺使用数GW级的Google TPU算力。

这些数字的背后,是一个简单而深刻的判断:当百万个AI Agent同时运转,基础设施必须足够专业,才能足够便宜,才能让这个Agent时代真正发生。

“一劈为二”,不是分裂,是精进。


参考资料:

  1. Google官方博客: Our eighth generation TPUs: two chips for the agentic era (2026-04-22)
  2. TechCrunch: Google Cloud launches two new AI chips to compete with Nvidia (2026-04-22)
  3. CNBC: Google unveils chips for AI training and inference in latest shot at Nvidia (2026-04-22)
  4. Morningstar/Dow Jones: Google Unveils Two New AI Chips, Will Invest $750 Million in Agentic AI Adoption (2026-04-22)