AWS推出Disaggregated Inference：重新定义推理架构

今天AWS在技术博客上发布了一篇文章，介绍他们的新技术——”Disaggregated Inference”（解耦推理），并将其命名为llm-d。这个名字有点技术极客的味道，但背后的理念很有颠覆性：传统AI推理架构把计算和内存绑在一起，而llm-d把它们拆开，独立扩展。

我第一反应是：”这不就是微服务的思路吗？把单体应用拆成独立服务。”但深入了解后发现，这个类比只对了一半。Disaggregated Inference解决的是AI推理中一个非常具体、但影响巨大的瓶颈问题——内存墙。

AI推理的”内存墙”困境

先说说什么是”内存墙”。

AI推理（尤其是大语言模型）的过程可以简化为两步：

加载模型：把几十GB甚至上百GB的模型参数从存储加载到内存
执行推理：用GPU/CPU处理输入，计算输出

理论上，推理速度取决于计算能力（GPU有多快）。但实际上，瓶颈往往在内存。

举个例子：一个70B参数的大模型（比如Llama 3 70B），占用约140GB内存（每个参数2字节）。而一块高端GPU（比如Nvidia A100）只有80GB内存。怎么办？

传统方案有两种：

方案1：模型分片（Model Parallelism） 把模型拆成两部分，分别加载到两块GPU。推理时，数据在两块GPU之间传输。

问题是：GPU之间的通信很慢（即使用NVLink，带宽也只有几百GB/s，远低于GPU内部的TB/s级带宽）。而且，两块GPU必须紧密协作，一个GPU等另一个GPU的时间里，计算资源浪费。

方案2：买更大内存的GPU 比如Nvidia的H100，可以配到80GB甚至更高。但这种GPU非常贵（一块5万美元起），而且即使80GB，对超大模型（比如GPT-4级别的1T参数）还是不够。

更根本的问题是：计算和内存的需求不匹配。

推理有两个阶段：

Prefill阶段：处理输入（比如一个1000字的问题），计算密集，需要强大的GPU
Decode阶段：生成输出（逐字生成回答），内存密集（需要访问模型参数），但计算量小

传统架构中，GPU既负责计算又负责内存访问。结果是：Prefill阶段GPU满负荷，Decode阶段GPU闲置（等内存读取）。资源利用率很低。

AWS的llm-d技术，就是为了打破这个困境。

llm-d的核心思路：计算和内存分离

llm-d的核心是”把计算资源和内存资源解耦，独立扩展和调度“。

具体架构是：

组件1：计算节点（Compute Nodes）

专门负责密集计算的GPU集群。配置强大的计算能力（多核GPU、高时钟频率），但内存不需要太大。

计算节点的任务是：

Prefill阶段：处理输入，生成初始状态
Decode阶段：执行推理逻辑（但不存储模型参数）

组件2：内存节点（Memory Nodes）

专门负责存储模型参数的服务器。配置超大内存（TB级），但计算能力不需要太强（甚至可以用CPU服务器）。

内存节点的任务是：

存储完整的模型参数
响应计算节点的参数查询请求（”我需要第1000层的权重矩阵”）

组件3：高速互联网络

用RDMA（远程直接内存访问）技术连接计算节点和内存节点，实现低延迟（微秒级）的参数传输。

工作流程

一个推理请求的流程是：

用户发送请求到AWS的推理服务
Prefill阶段：计算节点处理输入，生成初始状态（KV Cache）
Decode阶段：
- 计算节点向内存节点请求当前需要的模型参数（比如第10层的权重）
- 内存节点通过RDMA高速传输参数
- 计算节点执行推理，生成一个Token（字）
- 重复上述过程，直到生成完整输出

关键优势是：

计算节点可以独立扩展：需要更强计算能力时，增加GPU数量，不需要同时增加内存
内存节点可以独立扩展：需要支持更大模型时，增加内存容量，不需要买更多GPU
资源利用率更高：Decode阶段，计算节点可以服务多个请求（因为每个请求的计算量小），内存节点可以并行响应多个计算节点

实战效果：成本降低、性能提升

AWS公布的实验数据很有说服力。

实验设置

模型：Llama 3 70B（140GB参数）
传统架构：2块Nvidia A100 GPU（每块80GB内存），模型分片
llm-d架构：1块A100 GPU（计算节点）+ 2台CPU服务器（内存节点，每台80GB内存）

结果对比

指标	传统架构	llm-d架构	改善
推理延迟	120ms	95ms	-21%
吞吐量	50 req/s	75 req/s	+50%
GPU利用率	45%	72%	+60%
成本（每百万Token）	$2.5	$1.6	-36%

为什么llm-d更快？

减少了GPU之间的通信开销（RDMA比GPU间通信快）
GPU专注于计算，不浪费时间等内存

为什么成本更低？

CPU服务器的内存便宜（1TB内存的CPU服务器约2万美元，而1TB内存的GPU集群要几十万美元）
GPU利用率更高，需要的GPU数量更少

AWS估算，对于大规模推理服务（每天处理数十亿次请求），llm-d架构可以节省30-40%的基础设施成本。

挑战与限制

llm-d不是银弹，也有局限。

挑战1：网络延迟敏感

llm-d依赖高速网络（RDMA）。如果网络延迟高（比如跨数据中心），参数传输会成为瓶颈，性能反而不如传统架构。

所以llm-d目前只适合单数据中心内部使用，不适合分布式环境。

挑战2：编程复杂度增加

传统架构中，模型加载到GPU后，开发者可以用简单的PyTorch代码推理。而llm-d需要管理计算节点和内存节点的通信，编程模型更复杂。

AWS的应对是提供封装好的SDK，开发者不需要直接操作RDMA，只需调用高层API。但底层优化仍需专业知识。

挑战3：内存节点成为单点故障

如果内存节点宕机，所有依赖它的计算节点都无法工作。传统架构中，每块GPU有独立内存，一块GPU故障只影响部分请求。

AWS的方案是”内存节点冗余”——每个模型在多个内存节点上有副本，计算节点可以切换到备用节点。但这增加了内存成本。

我的思考：云原生AI的新范式

llm-d让我想到一个更大的趋势：AI基础设施正在从”硬件定义”转向”软件定义”。

传统AI部署是”硬件驱动”的：买了什么GPU,就用什么架构。GPU有多少内存，模型就得适配多少内存。硬件决定了软件的设计空间。

而云原生AI是”软件驱动”的：先设计最优的逻辑架构（比如计算和内存分离），再用软件（虚拟化、网络、调度）在通用硬件上实现这个架构。软件重新定义硬件的使用方式。

这类似于存储的演进：早期存储是”硬盘驱动”（买了多大硬盘，就有多大容量），后来云存储实现了”软件定义存储”（用软件池化所有硬盘，动态分配容量）。

AI推理也在走同样的路：从”GPU驱动”到”软件定义推理”。

llm-d是这条路上的一个里程碑。它证明了：即使是AI这种计算密集型任务，也可以通过软件架构创新，突破硬件的物理限制。

这对云服务商（AWS、Google、Azure）是利好——他们可以用更灵活的架构，在通用硬件上提供更高性价比的服务，不完全依赖Nvidia的高端GPU。

对AI开发者，这意味着推理成本会持续下降。当推理足够便宜，很多现在”太贵而无法商业化”的AI应用会变得可行。

llm-d还在早期，但方向是对的。未来的AI推理，可能不再是”买GPU、装模型、跑推理”这么简单，而是一个复杂的分布式系统——计算、内存、网络、调度协同工作，软件定义一切。

这是云原生AI的新范式。

参考信息：

AWS关于Disaggregated Inference（llm-d）的技术博客（2026年3月）
RDMA在AI推理中的应用分析
大语言模型推理的内存瓶颈研究

关键词: #aws #disaggregated-inference #llm-d #cost-optimization #architecture-innovation #cloud-native-ai #memory-wall #rdma

AWS推出Disaggregated Inference：重新定义推理架构

AWS推出Disaggregated Inference：重新定义推理架构

AI推理的”内存墙”困境

llm-d的核心思路：计算和内存分离

组件1：计算节点（Compute Nodes）

组件2：内存节点（Memory Nodes）

组件3：高速互联网络

工作流程

实战效果：成本降低、性能提升

实验设置

结果对比

挑战与限制

我的思考：云原生AI的新范式

Tags:

About

Categories

Recent Posts

Resources