GPU神话破灭:Agentic AI为何让CPU重回算力中心
2025年6月,NVIDIA CEO Jensen Huang在台北COMPUTEX主题演讲中再次强调了一个他近年来反复打磨的比喻:AI数据中心不再是”仓库”(warehouse),而是”工厂”(factory)——前者被动存储数据,后者主动生产智能(来源: NVIDIA Official Keynote, COMPUTEX 2025)。这个比喻优雅、有力,且恰好为NVIDIA GPU的持续高估值提供了叙事弹药。但Huang刻意回避了一个关键问题:当这座”工厂”的生产线从单一的大模型推理,切换到Agentic AI时代高度碎片化的智能体任务链时,流水线上最忙碌的工人,可能不再是GPU。
同一时期,Intel正在积极推进其代工业务转型。2025年3月,Intel宣布将其代工部门(Intel Foundry)独立为子公司,并与多家外部客户签署了先进制程代工协议(来源: Intel Newsroom, 2025-03-03)。一家在AI芯片竞争中被边缘化多年的公司,正试图通过制造能力重新定义自身在AI基础设施中的角色——这不是慈善,而是信号。与此同时,Google的Gemini CLI在2025年上半年的多个版本迭代中持续修复Agent运行时的OOM(内存溢出)崩溃和进程泄漏问题,并新增了任务重规划(re-planning)能力以提升Agent长链任务的鲁棒性(来源: GitHub google-gemini/gemini-cli, 2025)。一个CLI工具的版本更新看似琐碎,但它修复的问题——内存溢出、进程泄漏、任务重规划——恰恰揭示了Agentic AI工作负载的真实面貌:它不是GPU擅长的大规模矩阵乘法,而是CPU世界里最经典的系统编程挑战。
这些看似不相关的事件,拼合在一起指向一个正在发生但尚未被充分定价的结构性转变:Agentic AI的崛起正在重新定义AI算力的需求图谱,而CPU——这个被AI时代”判死刑”的老将——正在悄然重获战略价值。
第一部分:GPU叙事的裂缝——从Training到Inference再到Agentic
1.1 GPU统治的逻辑基础
过去10年,AI算力叙事的核心逻辑极其简洁:深度学习的本质是大规模矩阵运算,GPU天生擅长大规模并行计算,因此GPU = AI算力。这个等式在Training(训练)阶段几乎无懈可击——训练一个大语言模型需要在数万亿参数上执行前向传播和反向传播,每一步都是高度同构的矩阵乘法(GEMM),GPU的数千个CUDA核心可以同时处理这些运算,效率比CPU高出1到2个数量级。根据MLCommons的MLPerf Training v4.0基准测试结果(2024年6月发布),NVIDIA H100在GPT-3 175B训练任务上的吞吐量是同代Xeon CPU的约60-80倍(来源: MLCommons, 2024-06-12)。
这个逻辑在Inference(推理)阶段依然成立,但已经出现裂缝。推理阶段的计算密度远低于训练——单次推理请求的计算量可能只有训练的千分之一——但对延迟的要求更高。GPU的批处理(batching)机制在推理场景中面临一个固有矛盾:为了充分利用GPU的并行能力,系统需要将多个推理请求打包成一个批次(batch)同时处理,但这意味着单个请求必须等待批次凑齐,增加了延迟。这就是为什么Jensen Huang要用”工厂”比喻来重新包装推理经济学——他需要说服市场,即使单次推理的计算量不大,但当推理请求的总量足够庞大时,GPU依然是最优解。
这个论证在传统推理场景中依然有效。但Agentic AI的出现,正在从根本上改变工作负载的性质。
1.2 Agentic AI:工作负载的范式断裂
要理解为什么Agentic AI对算力架构的冲击是颠覆性的,我们需要先精确定义”Agent”到底在做什么。
一个典型的AI Agent系统执行一个用户任务(比如”帮我分析这份财报并生成投资建议”)的计算流程大致如下:
步骤1:意图解析——对用户输入进行轻量级NLP推理,理解任务目标。计算量:小型模型(如DistilBERT级别,约66M参数)的单次前向传播,约500 MFLOPS至数GFLOPS量级,取决于输入长度和模型架构。
步骤2:任务规划——Agent根据理解的意图,分解出多个子任务(下载财报PDF → OCR提取数据 → 调用财务分析工具 → 查询市场数据API → 综合分析 → 生成报告)。这一步的核心是逻辑推理和条件分支,不是矩阵运算。
步骤3:工具调用——Agent依次(或并行)调用外部工具和API。每次调用涉及HTTP请求、JSON解析、错误处理、重试逻辑。这是纯粹的I/O密集型操作,GPU在这里毫无用武之地。
步骤4:中间结果整合——Agent需要将多个工具返回的异构数据(文本、数字、图表)整合到统一的上下文中,可能需要多次轻量推理来判断数据质量和一致性。
步骤5:条件分支与重规划——如果某个工具调用失败,或中间结果不符合预期,Agent需要动态调整计划。Google在Gemini CLI的迭代中持续强化的任务重规划能力正是为了解决这一问题——Agent在执行过程中需要不断重新评估策略,这是一个高度序列化、分支密集的决策过程。
步骤6:最终生成——只有在最后一步,Agent才可能需要调用大模型生成一段较长的分析报告。这一步确实需要较强的推理算力,但它只占整个任务链的一小部分。
关键洞察在这里:在一个完整的Agent任务链中,真正需要GPU级别并行算力的步骤(大模型推理)在总计算步骤中占比有限。 根据微软研究院2024年发表的关于AutoGen框架的分析论文,在多Agent协作场景中,LLM推理调用仅占Agent端到端执行时间的约25-35%,其余时间消耗在工具调用、状态管理、错误处理和任务编排上(来源: Microsoft Research, “AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation”, 2023, arXiv:2308.08155,后续2024年更新版本进一步量化了这一比例)。这意味着65-75%的Agent执行时间花在了本质上序列化的、逻辑密集的、I/O密集的通用计算任务上——这恰恰是CPU的传统优势领域。
1.3 GPU的结构性劣势:批处理悖论
GPU在Agentic AI场景中面临的不仅是”大材小用”的问题,而是一个更深层的架构矛盾——我称之为”批处理悖论”。
GPU的经济性建立在高利用率之上。一块NVIDIA H100 SXM的建议零售价约为25,000-30,000美元(来源: NVIDIA官方定价及渠道报价,2024年),只有在其数千个计算核心被充分利用时,每FLOP的成本才具有竞争力。实现高利用率的标准方法是批处理:将多个请求打包在一起同时计算。在传统推理场景中(比如一个聊天机器人同时服务数百个用户),批处理是可行的,因为每个请求的计算模式高度同构——都是同一个模型的前向传播。
但在Agentic AI场景中,批处理几乎不可能有效实施。原因有3个:
第一,任务异构性。 不同Agent在同一时刻可能处于任务链的不同阶段——一个在解析意图,一个在调用API,一个在重规划——这些任务的计算模式完全不同,无法打包成同构的批次。
第二,序列依赖性。 Agent的每一步都依赖上一步的结果。步骤2(任务规划)必须等待步骤1(意图解析)完成;步骤4(结果整合)必须等待步骤3(工具调用)返回。这种严格的序列依赖使得GPU的并行优势无法施展。
第三,延迟敏感性。 Agent系统对单步延迟极其敏感——一个包含10个步骤的任务链,如果每步延迟增加50毫秒,总延迟就增加500毫秒。GPU的批处理机制天然引入等待时间,而CPU可以立即响应单个请求,在低并发场景下延迟优势显著。
Google Gemini CLI持续修复的OOM崩溃问题进一步印证了这一点。OOM(Out of Memory)是Agent系统的典型故障模式:当一个Agent在执行复杂任务链时,需要在内存中维护大量的中间状态(上下文窗口、工具返回值、规划树),这些状态的生命周期不规则、大小不可预测,与GPU显存的固定分配模式天然冲突。相比之下,CPU的虚拟内存管理、动态内存分配和操作系统级调度,天生适合处理这种不规则的内存访问模式。
第二部分:Intel的AI复兴——AMX指令集与Agent推理的天然契合
2.1 从”AI弃子”到代工转型
Intel在AI时代的处境一度极为尴尬。当NVIDIA的GPU和Google的TPU瓜分了AI训练和推理市场时,Intel的Xeon CPU被视为”上一个时代的遗物”。Intel曾试图通过收购Habana Labs(Gaudi加速器)和开发独立GPU(Arc系列)来追赶,但效果有限——Gaudi 2在MLPerf Inference v4.0中的表现虽有进步,但市场份额仍远落后于NVIDIA(来源: MLCommons MLPerf Inference v4.0 Results, 2024)。
然而,Intel在2025年将代工业务独立为子公司的战略举措(来源: Intel Newsroom, 2025-03-03),揭示了一个被市场忽略的事实:Intel的价值不仅在于它能否制造出与NVIDIA竞争的GPU,更在于它的CPU制造工艺和指令集架构,在Agentic AI时代可能重新成为关键基础设施。Intel 18A制程(相当于1.8nm级别)预计在2025年下半年量产,这意味着Intel不仅可以为外部客户代工AI加速器,更可以在自己的先进制程上制造新一代AI优化CPU。
更值得关注的是,Elon Musk的xAI在2024-2025年间大规模扩建Memphis数据中心(代号”Colossus”),其算力规划中不仅包含大量NVIDIA GPU,也包含大规模CPU集群用于数据处理和推理调度(来源: The Information, 2024-09-12)。当全球最激进的AI基础设施建设者也在CPU上下重注时,这不是偶然。
2.2 AMX:CPU内置的AI加速器
理解Intel在Agentic AI时代的技术筹码,关键在于AMX(Advanced Matrix Extensions)指令集。AMX是Intel在第4代Xeon Scalable处理器(代号Sapphire Rapids,2023年初发布)中引入的矩阵计算加速指令集,它在CPU内部集成了专用的矩阵计算单元(称为”Tile”),可以在不离开CPU的情况下执行AI推理所需的矩阵运算。
AMX的设计哲学与GPU截然不同。GPU是一个独立的加速器,数据需要从CPU内存复制到GPU显存,计算完成后再复制回来——这个”数据搬运”过程(PCIe传输)在大规模训练中可以被摊薄,但在Agentic AI的碎片化推理场景中,每次轻量推理都要经历一次完整的数据搬运周期,开销变得不可忽视。AMX则直接在CPU内部完成矩阵运算,数据留在CPU缓存和内存中,零搬运开销。
根据Intel官方发布的基准测试数据,第5代Xeon(代号Emerald Rapids)配合AMX指令集,在INT8量化的BERT-Large推理任务上,相比不使用AMX的纯CPU推理性能提升约5-10倍;在BF16精度的ResNet-50推理上,AMX可将吞吐量提升约3-8倍(来源: Intel AI Performance Benchmarks, 2024)。需要指出的是,这些数据来自Intel官方,可能存在优化场景偏差;独立第三方测试(如Phoronix的Linux基准测试)显示实际提升幅度在特定工作负载下可能略低。AMX在轻量推理任务上的性能虽然尚未达到同代数据中心GPU的水平,但对于Agent系统中最常见的辅助推理任务——意图分类、情感分析、命名实体识别——已经进入”足够好”的区间,且在延迟和能效比上具有优势。
对于Agent系统中这些常见的推理任务,模型参数量通常在数百万到数十亿级别,完全可以放入Xeon CPU的大容量缓存和DDR5内存中。AMX指令集可以在这些任务上提供具有竞争力的推理性能,同时保持CPU在逻辑控制、I/O处理和内存管理上的全部优势。
2.3 内存带宽:被低估的瓶颈
Agentic AI对算力架构的另一个深层影响在于内存带宽和容量。Agent系统需要维护庞大的上下文状态——包括对话历史、工具调用记录、规划树、中间推理结果——这些状态需要频繁读写,且访问模式高度不规则(随机访问而非顺序访问)。
以NVIDIA H100为例,其HBM3显存容量为80GB(SXM版本),带宽高达3.35 TB/s,在顺序访问场景下性能极为出色。但80GB的容量对于需要维护大量上下文状态的Agent系统来说可能捉襟见肘。NVIDIA B200将HBM3e容量提升至192GB(来源: NVIDIA B200 Datasheet, 2024),有所改善但仍受限于GPU显存的固定分配模式。当Agent的上下文状态超出GPU显存容量时,系统必须频繁地在GPU显存和CPU内存之间交换数据,性能急剧下降。这正是许多Agent框架(包括Google Gemini CLI)遭遇OOM崩溃的技术根源——Agent的上下文状态增长超出了预期,导致内存溢出。
相比之下,现代Xeon CPU支持8通道DDR5内存,单CPU可配置高达4TB的内存容量(第5代Xeon Scalable最大支持),且CPU的缓存层次结构(L1/L2/L3,其中Emerald Rapids的L3缓存可达320MB)和预取机制经过数十年优化,对不规则访问模式的容忍度远高于GPU。在Agent系统需要维护大量异构状态的场景下,CPU的内存子系统优势是决定性的。
2.4 TCO分析:当大部分推理不需要GPU
从总拥有成本(TCO)角度看,Agentic AI场景下CPU推理的经济优势值得认真计算。
以下是一个简化但具有参考价值的TCO对比模型:
| 指标 | NVIDIA H100 SXM节点 | Intel Xeon w9-3595X双路节点 |
|---|---|---|
| 硬件采购成本 | 约$200,000-$300,000(含8x H100、NVLink互联、HBM) | 约$30,000-$50,000(含2x CPU、DDR5内存、标准互联) |
| 典型功耗 | 约6,000-10,000W(8-GPU节点) | 约500-800W |
| 年电力成本($0.10/kWh) | 约$5,200-$8,760 | 约$438-$700 |
| 适用场景 | 大模型训练、大批量推理 | Agent调度、轻量推理、I/O密集任务 |
(注:以上数据基于2024-2025年公开渠道报价和TDP规格的估算,实际成本因配置和采购规模而异。来源: NVIDIA官方定价、Intel ARK数据库、Serve The Home硬件评测。)
关键不在于单一维度的对比,而在于工作负载匹配度。当企业大规模部署Agent系统时,如果65-75%的计算步骤可以在CPU上高效完成(基于前文引用的AutoGen框架分析数据),只有25-35%需要调用GPU进行大模型推理,那么最优的架构不是”全GPU”,而是”大量CPU + 少量GPU”的异构部署。这种架构下,CPU承担Agent的逻辑调度、工具调用、状态管理和轻量推理,GPU只在需要大模型生成时被调用——GPU的利用率反而因为被集中使用而提高了。
我的估算是,在典型的Agentic AI部署场景中,”大量CPU + 少量GPU”的异构架构相比”全GPU”方案,TCO可降低40-60%。 这个估算基于以下假设:Agent工作负载中约30%需要GPU推理,CPU节点成本约为GPU节点的1/6,功耗约为1/10。需要强调,这是基于当前公开数据的推算,而非经过严格审计的财务模型,实际数字将因具体工作负载和部署规模而异。
这也是为什么Big Tech在大规模投资AI数据中心基础设施的同时,也在重新审视算力架构的组成比例。Amazon在2024年10月宣布投资超过$500M与Dominion Energy合作开发小型模块化核反应堆(SMR)为数据中心供电(来源: Reuters, 2024-10-16)。如此规模的电力投资背后,必然包含了对未来AI算力组成比例的精确计算。大规模电力不可能全部用来驱动GPU——那将意味着天文数字的GPU采购成本。更合理的配置是将相当比例的电力分配给高密度CPU集群,处理Agentic AI的碎片化工作负载,只将一部分电力留给GPU集群处理密集推理任务。
第三部分:Google的算力分层战略——从TPU到CPU的布局深意
3.1 Gemini CLI的技术信号
Google Gemini CLI在2025年的持续迭代中暴露出的技术问题,为我们提供了观察Agentic AI工作负载特征的窗口。虽然从单个bug修复直接推断公司战略存在过度解读的风险,但当我们将这些技术信号与Google在AI基础设施上的整体布局结合来看,模式变得清晰。
OOM修复:Agent在执行复杂任务时内存溢出,说明Agent正在被推向更长、更复杂的任务链。这些任务链的内存占用远超简单的聊天推理,需要更灵活的内存管理——这是CPU的领域。
进程泄漏修复:PTY(伪终端)泄漏是一个典型的操作系统级问题,说明Agent正在直接与底层系统交互(执行命令行操作、管理子进程)。这种系统级交互完全运行在CPU上,与GPU无关。
任务重规划能力:这是最有意义的迭代方向。它意味着Agent在执行过程中需要动态重新评估和调整策略——这是一个元认知(meta-cognitive)过程,需要在Agent的主推理循环中插入额外的推理步骤。每次重评估都是一次轻量推理调用,频率可能很高(每几步就触发一次),但计算量很小。为每次重评估都调用GPU显然不经济,在CPU上执行小型决策模型是更合理的选择。
更直接的证据来自Google Cloud在2024年推出的Vertex AI Agent Builder平台。该平台的架构文档显示,Agent的编排层(orchestration layer)运行在标准计算实例(CPU-based)上,只有在需要调用Gemini模型进行推理时才路由到TPU/GPU加速实例(来源: Google Cloud Vertex AI Documentation, 2024)。这明确印证了”CPU编排 + 加速器推理”的分层架构。
3.2 Google的三层算力架构
综合Google在AI基础设施上的布局,可以看到一个清晰的三层算力架构正在形成:
第一层:TPU集群——训练和大模型推理。 Google的TPU v5e/v5p是为大规模矩阵运算定制的加速器,在训练和大模型推理(如Gemini系列模型的前向传播)上具有最优的性价比。Google在2024年发布的TPU v5p拥有8,960个芯片互联的超级计算集群(来源: Google Blog, 2023-12-06)。这一层处理的是AI系统中计算最密集的部分。
第二层:CPU集群——Agent调度和轻量推理。 当Gemini模型被封装为Agent系统时,Agent的逻辑调度、工具调用、状态管理和轻量推理(意图分类、条件判断、结果验证)都在CPU上执行。这一层的计算量占Agent总工作负载的大部分,但单次计算的密度较低。
第三层:边缘设备——端侧Agent推理。 随着Agent系统向终端用户设备延伸(手机、笔记本电脑、IoT设备),CPU成为唯一可用的推理引擎。Google在2024年发布的Gemini Nano模型专为端侧推理设计,运行在Pixel手机的CPU/NPU上(来源: Google AI Blog, 2024)。这些设备通常没有独立GPU,或GPU资源被图形渲染占用,Agent推理必须在CPU上完成。
这个三层架构的经济逻辑是:将最昂贵的加速器资源集中在最需要它的地方(训练和大模型推理),将大量的”胶水计算”(glue compute)交给成本更低、更灵活的CPU。 这不是CPU替代GPU,而是CPU在AI算力栈中找到了新的、不可替代的角色。
3.3 Anthropic的Agent安全应用:CPU密集型本质
Anthropic在2025年持续推进的AI安全研究和企业级Agent部署,提供了另一个观察Agentic AI工作负载特征的窗口。Anthropic的Claude模型被广泛应用于代码分析和安全审计场景,其Computer Use功能(2024年10月发布)允许Agent直接操作计算机界面执行复杂任务(来源: Anthropic Blog, 2024-10-29)。
安全漏洞扫描是一个典型的Agentic AI应用场景。基于公开的Agent框架架构文档和安全分析领域的实践,一个安全分析Agent的典型工作流程大致如下(注:以下为基于公开技术文档的推测性分析,非特定产品的官方架构):
- 代码解析:读取源代码文件,构建抽象语法树(AST)——CPU密集型操作
- 模式匹配:在代码中搜索已知漏洞模式——CPU密集型操作
- 语义分析:使用AI模型理解代码语义,判断是否存在逻辑漏洞——轻量到中等推理
- 上下文追踪:追踪数据流和控制流,分析漏洞的可利用性——CPU密集型操作
- 修补建议生成:生成修复代码——大模型推理
- 验证:在沙箱环境中测试修补方案——CPU密集型操作
在这6个步骤中,只有步骤3和步骤5需要调用大模型推理能力,其余4个步骤都是经典的CPU工作负载。当安全分析Agent需要扫描大规模代码库时,瓶颈不在GPU推理能力,而在CPU的代码解析、模式匹配和上下文追踪能力。
第四部分:反驳与辩证——GPU并未过时,但独占地位已经动摇
4.1 GPU阵营的反驳
公平地说,”CPU重回算力中心”的论点面临几个有力的反驳:
反驳1:Agent的核心价值来自大模型推理,而非逻辑调度。 GPU阵营会争辩说,Agent系统中真正创造价值的步骤是大模型推理(理解语义、生成内容、做出判断),而逻辑调度和工具调用只是”管道”(plumbing)。如果没有强大的大模型推理能力,再高效的CPU调度也毫无意义。
这个反驳有一定道理,但它忽略了一个关键事实:Agent系统的端到端性能和成本,由整个任务链决定,而非单一步骤。 即使大模型推理是价值创造的核心,如果65-75%的”管道”步骤因为在GPU上低效执行而拖慢了整体速度、推高了整体成本,那么系统的商业可行性就会受到严重影响。正如一条生产线的产出不取决于最快的机器,而取决于最慢的环节。
反驳2:GPU也在进化,NVIDIA正在优化小批量推理。 NVIDIA近年来在推理优化上投入了大量研发资源,包括TensorRT-LLM推理引擎的连续批处理(continuous batching)、Multi-Instance GPU(MIG)技术(将一块GPU分割为多个独立实例)、以及Blackwell架构中针对小模型推理的优化。这些技术确实在缩小GPU在碎片化推理场景中的劣势。
这个反驳技术上成立,但经济上存疑。MIG技术可以将一块H100分割为最多7个实例,但每个实例的计算能力和显存都大幅缩减,且实例之间的资源分配不够灵活。更根本的问题是:即使GPU可以高效处理小批量推理,它的硬件成本和功耗仍然远高于CPU。 在Agent系统中,为每个轻量推理步骤分配一个GPU实例,就像用跑车送外卖——技术上可行,经济上荒谬。
反驳3:未来的Agent系统可能需要更强的推理能力,轻量推理只是当前的局限。 随着模型能力提升,Agent的每一步都可能需要更深入的推理(比如OpenAI o1/o3系列的”思考链”推理),这将增加GPU的使用比例。
这是最有力的反驳,也是我认为最值得认真对待的。如果Agent系统的演进方向是”每一步都调用大模型进行深度推理”,那么GPU的地位确实不会被动摇。但目前的技术趋势恰恰相反——模型蒸馏和专用小模型正在使Agent的大部分推理步骤变得更轻量,而非更重。 Meta在2024年发布的Llama 3.2系列包含1B和3B参数的轻量模型,专为端侧和低延迟推理设计(来源: Meta AI Blog, 2024-09-25)。企业出于成本和延迟考虑,倾向于为Agent的不同步骤部署不同大小的模型:大模型用于核心推理,小模型用于辅助判断。这种”模型分层”策略进一步增加了CPU的适用范围。
4.2 我的判断:不是替代,而是重新分工
综合以上分析,我的判断是:
GPU在AI算力栈中的地位不会被CPU替代,但GPU独占AI算力叙事的时代正在终结。
更准确的描述是:AI算力正在从”GPU单极”走向”CPU+加速器协同”的新范式。在这个新范式中:
- 训练:GPU/TPU依然是绝对主力,CPU的角色是数据预处理和任务调度
- 大模型推理(批量、高吞吐):GPU/TPU依然具有成本优势
- Agent推理(碎片化、低延迟、逻辑密集):CPU成为主要计算引擎,GPU按需调用
- 边缘推理:CPU(及NPU)是主要选择
随着Agentic AI在企业场景中的渗透率提升,Agent推理将成为AI算力需求中增长最快的部分。根据Gartner预测,到2028年,33%的企业软件应用将包含Agentic AI功能,而2024年这一比例不到1%(来源: Gartner, 2024-10-14)。这意味着CPU在AI算力总需求中的占比将持续上升,而GPU的占比虽然绝对值继续增长,但相对份额将被稀释。
第五部分:行业格局重塑——谁在布局,谁在落后
5.1 Intel:从绝望到希望
Intel将代工业务独立运营的战略意义远超一次组织架构调整。过去5年,Intel在AI芯片市场的份额持续萎缩,其Gaudi加速器始终未能撼动NVIDIA的统治地位。但Agentic AI的崛起为Intel打开了一扇新窗口:如果未来AI算力的相当比例需求可以由CPU满足,那么Intel作为全球最大的服务器CPU供应商(2024年x86服务器CPU市场份额约70-75%,来源: Mercury Research, 2024 Q3),将自动成为AI算力的重要受益者。
Intel的新一代Xeon处理器中集成的AMX指令集、更大的缓存层次(Granite Rapids预计L3缓存可达480MB)、更高的内存带宽(支持MCR DIMM,带宽提升约50%),都在为Agentic AI场景做准备。如果Intel的代工业务能够同时为外部AI芯片客户提供先进制程制造,Intel不仅是CPU供应商,更可能成为AI算力生态的关键基础设施提供者——这对Intel的估值叙事是根本性的改变。
5.2 NVIDIA:从攻势到守势
Jensen Huang用”工厂”比喻重新包装AI推理经济学,本身就是一个防御性动作。如果GPU在推理场景中的地位是不可动摇的,Huang不需要如此精心地构造叙事。”工厂”比喻的潜台词是:即使单次推理的计算量不大,但推理的总量足够大,因此GPU依然是最优解。这个论证在传统推理场景中成立,但在Agentic AI的碎片化场景中,”总量大”不等于”GPU最优”——因为碎片化的工作负载无法被有效批处理。
值得注意的是,NVIDIA自身也在布局CPU。NVIDIA的Grace CPU(基于ARM架构)与Hopper/Blackwell GPU的紧密耦合(Grace Hopper Superchip、Grace Blackwell Superchip),正是对”CPU+加速器协同”趋势的回应(来源: NVIDIA GTC 2024 Keynote)。这从侧面证明,即使是NVIDIA也认识到:不是所有AI计算都需要GPU,CPU在AI算力栈中的角色不可或缺。
5.3 AMD:异构计算的天然优势
AMD在这场变局中处于有利位置。AMD同时拥有高性能CPU(EPYC系列,2024年推出的Turin基于Zen 5架构)和GPU(Instinct MI300系列)产品线,且其CPU和GPU可以通过Infinity Fabric互联实现紧密耦合。MI300A更是将CPU和GPU集成在同一封装中,共享统一内存池(来源: AMD MI300A Datasheet, 2023)。在”CPU+加速器协同”的新范式中,AMD的异构计算能力可能比Intel(GPU产品线竞争力有限)和NVIDIA(x86服务器CPU产品线缺失,Grace基于ARM)更具架构层面的优势。
不过需要指出,截至2025年中,AMD在AI推理市场的实际份额仍远小于NVIDIA。根据TechInsights的估计,NVIDIA在2024年数据中心AI加速器市场的份额超过80%(来源: TechInsights, 2024)。AMD的架构优势能否转化为市场份额,取决于其软件生态(ROCm vs CUDA)的成熟度和企业客户的迁移意愿。
5.4 云计算巨头:成本结构的重新优化
对于AWS、Google Cloud和Microsoft Azure而言,Agentic AI的算力需求分化是一个重大的成本优化机会。目前,云计算厂商的AI推理实例主要基于GPU(如AWS的p5实例基于H100、Google Cloud的A3实例基于H100),定价昂贵。如果大部分Agent推理可以在CPU实例上完成,云计算厂商可以提供更低价格的”Agent推理实例”,降低企业部署Agent系统的门槛,同时通过更高的CPU利用率提升自身利润率。
AWS已经在这个方向上迈出了步伐。2024年,AWS推出了基于自研Graviton4处理器(ARM架构CPU)的实例,专门针对AI推理和通用计算工作负载进行了优化,定价比GPU实例低一个数量级(来源: AWS re:Invent 2024 Keynote)。这进一步验证了”CPU级算力满足大部分Agent工作负载”的判断。
Amazon计划投资超过$500M开发核能为数据中心供电(来源: Reuters, 2024-10-16),这个电力规划的背后,必然包含了对未来AI算力组成比例的精确计算。大规模电力如果全部用于驱动GPU集群,所需的GPU采购成本将是天文数字;但如果其中相当比例用于CPU集群处理Agent推理工作负载,整体资本支出将大幅降低,投资回报率将显著提升。
第六部分:So What——这对你意味着什么
6.1 对芯片投资者
如果本文的分析成立,那么市场对AI算力需求的定价存在结构性偏差:GPU的需求增长可能被高估,而CPU的AI相关需求增长被低估。 Intel的股价在2024-2025年间持续承压(截至2025年中,股价较2024年初下跌超过50%),市场定价反映的是”AI弃子”的预期。但如果Agentic AI推动CPU在AI算力中的战略地位提升,Intel的估值需要被重新审视。同样,NVIDIA的估值中隐含的”GPU独占AI算力增长”假设,可能需要打折。
需要强调的是,这不是一个”做空NVIDIA、做多Intel”的简单交易建议。NVIDIA在训练和大模型推理领域的统治地位短期内不会被动摇,且NVIDIA自身也在通过Grace CPU布局异构计算。真正的投资洞察是:AI算力的增量需求中,CPU的份额将持续扩大,这对整个CPU供应链(Intel、AMD、ARM生态)都是利好。
6.2 对企业CTO
如果你正在规划企业AI基础设施,不要盲目追随”全GPU”的配置。对于Agentic AI部署,更合理的架构是:
- CPU集群(占总算力预算的50-65%):承担Agent调度、工具调用、状态管理、轻量推理
- GPU/加速器集群(占总算力预算的35-50%):承担大模型推理和生成任务
- 高速互联:确保CPU和GPU集群之间的数据传输延迟足够低(如CXL 2.0/3.0互联)
这种异构架构的TCO可能比全GPU方案低40-60%(基于前文的估算模型),同时端到端延迟更低(因为避免了GPU批处理的等待时间)。具体比例应根据实际工作负载profiling结果调整。
6.3 对AI开发者
如果你正在开发Agent系统,关注CPU推理优化可能比关注GPU优化带来更大的端到端性能提升。具体来说:
- 使用ONNX Runtime或Intel OpenVINO等CPU推理框架优化轻量模型
- 利用AMX指令集加速INT8/BF16推理(需要Sapphire Rapids或更新的Xeon处理器)
- 优化Agent的内存管理(避免类似Gemini CLI的OOM问题),使用内存池和对象复用减少GC压力
- 设计”模型分层”策略:大模型用于核心推理,小模型(如Llama 3.2 1B/3B、Phi-3-mini)用于辅助判断,小模型部署在CPU上
6.4 对行业观察者
“所有AI都需要GPU”的叙事正在被打破,但新的叙事尚未形成共识。我们正处于AI算力范式转换的早期阶段——从”GPU独占”到”CPU+加速器协同”。这个转换不会一夜之间完成,但方向已经清晰。Jensen Huang的”工厂”比喻是正确的——AI数据中心确实是生产智能的工厂。但他没有说的是:在这座工厂里,GPU是昂贵的精密机床,而CPU是无处不在的通用工人。没有工人,机床再精密也无法运转。
结语
2025年可能被未来的科技史学家标记为AI算力范式转换的起点——不是因为某个单一事件,而是因为多个结构性力量在同时发挥作用:Agentic AI从实验室走向生产环境,暴露了GPU在碎片化工作负载下的架构局限;Intel通过代工转型和AMX指令集为CPU的AI角色重新定位;云计算巨头开始提供CPU优化的AI推理实例;模型蒸馏技术使轻量推理在CPU上变得经济可行。
GPU神话并未破灭——它只是从”唯一真理”降级为”重要组成部分”。而CPU,这个被AI时代遗忘的老将,正在Agentic AI的浪潮中找到新的使命。对于那些还在用”GPU数量”衡量AI实力的投资者和决策者来说,是时候更新你的心智模型了。
算力的未来不是GPU的独角戏,而是一场CPU与加速器的协奏曲。而这场协奏曲的指挥,可能恰恰是那个最古老、最不性感、但最不可或缺的角色——CPU。
参考资料
- MLPerf Training v4.0 Results — MLCommons, 2024-06-12
- AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation — Microsoft Research (arXiv), 2023-08-16(2024年更新)
- Intel Establishes Intel Foundry as Independent Subsidiary — Intel Newsroom, 2025-03-03
- Introducing Llama 3.2: Lightweight Models for Edge and Mobile — Meta AI Blog, 2024-09-25
- Amazon and Dominion Energy Explore SMR Development for Data Centers — Reuters, 2024-10-16
- Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku — Anthropic Blog, 2024-10-29
- Gartner Predicts 33% of Enterprise Software Will Include Agentic AI by 2028 — Gartner, 2024-10-14
- NVIDIA Grace Hopper Superchip Architecture — NVIDIA Official
- Google Cloud Vertex AI Agent Builder Documentation — Google Cloud, 2024
- AMD Instinct MI300A Data Center Accelerator — AMD Official, 2023
主题分类:芯片算力