想象两种训练AI的方式:

第一种,像考试:出一道题,给出标准答案,模型对了就加分,错了就减分。足够了数万道题,模型学会了答题。

第二种,像游戏通关:把AI放进一个任务环境,它需要采取一系列行动,每一步都影响下一步,只有成功完成整个任务才能得到奖励。AI学到的不是答题,而是「如何玩好这个游戏」。

2026年6月3日,AWS在SageMaker AI上发布的Multi-turn RL(多轮强化学习),是第二种方式的工业化版本。

问题的本质:单步训练制造出了什么

过去两年,企业部署AI Agent的经历大多有一个共同的痛点:

单步任务表现很好。多步任务开始崩溃。

让Claude写一份合同摘要——很好。让Claude登录系统、找到合同、提取关键条款、与法律数据库交叉核验、生成摘要、发邮件——开始出问题。

为什么?因为几乎所有大型语言模型的训练,包括大多数微调,都是基于「单轮」范式的:输入→输出,对了奖励,错了惩罚。模型学会了在单次交互中表现好,但没有学会如何在一个跨越多个步骤的任务中保持连贯性和策略性。

Multi-turn RL试图解决的,就是这个根本性的错位。

Multi-turn RL实际上在做什么

AWS的技术文档描述得很清晰:

“Training models against your own agent environment and rewarding the full sequence of decisions an agent makes across a task.”

奖励的是「整个决策序列」,而不是某一步的对错。

这意味着:如果Agent在第3步做了一个次优选择,但最终还是完成了任务——它仍然得到奖励,甚至可能学到了更灵活的路径。如果Agent在第7步失败了,即使前6步都很正确——它得到的惩罚反映的是整个策略,而不只是第7步。

这更接近人类学习复杂技能的方式:学下棋不是学「在这个局面下走法D比走法A高0.3分」,而是学「如何整盘棋地思考」。

技术架构的三个关键设计

1. 完全无服务器,按Token付费

这个细节很重要。RL训练传统上是计算密集型的,需要长期运行的基础设施,通常意味着巨额的固定成本。

SageMaker Multi-turn RL是完全无服务器的:你不需要预置任何基础设施,只为实际处理的Token付费。这把原本只有大型AI实验室才能负担的Agent RL训练,降低到了任何AWS客户都可以试用的门槛。

2. 连接你自己的Agent环境

这是设计中最有意思的部分。Multi-turn RL不是在一个预设的虚拟环境中训练——它可以连接到你真实的业务系统:

  • Amazon Bedrock AgentCore Runtime(托管环境)
  • Amazon EKS、EC2、Fargate(你自己的基础设施)
  • 任何框架下运行的Agent

这意味着你可以在真实的工具调用环境中训练模型。一个需要操作CRM、查询合规数据库、生成报告的企业Agent,可以在真实的API调用链路中训练,而不是在一个模拟环境里。

3. 完整的训练闭环 + MLflow追踪

SageMaker管理完整的训练循环:从rollout编排(Agent执行任务)到轨迹收集,再到模型训练和检查点管理。内置MLflow让你可以审查每一个Agent轨迹——它是怎么思考的,每一步选了什么工具,在哪里出错了,最终得到了什么奖励。

这个可观察性,对于企业来说几乎和训练本身一样重要。你需要能解释你的Agent为什么这样做,才能把它放进生产。

支持的模型:一个值得关注的细节

当前Multi-turn RL支持的模型:

  • Qwen 3.6 27B
  • Nova Lite 2.0(AWS自己的模型)
  • GPT-OSS-20B
  • Gemma 31B

注意这些都是中等规模的模型,而不是GPT-5或Claude Opus这样的最大模型。这不是偶然的。

AWS的官方表述是:「帮助你把更小、更低成本的模型专门化,以匹配或超过更大通用模型在你的目标任务上的准确度。」

这是一个关于AI成本的现实判断:你不需要为每个企业任务都使用最贵的前沿模型。一个专门为你的销售流程训练的27B参数模型,在你的任务上可能比一个通用的千亿参数模型做得更好,而成本是它的二十分之一。

Multi-turn RL是实现这个「专门化」的工具。

这意味着什么

有几个可能的连锁反应值得关注:

企业AI成本曲线的拐点

当中小企业可以用无服务器RL在自己的业务环境中微调20-30B的模型时,使用顶级大模型的边际优势会下降。这对大模型厂商的「单价」是压力,对企业的AI部署成本是利好。

AWS的Agent生态飞轮

Multi-turn RL与Bedrock AgentCore、SageMaker Studio、MLflow、EKS深度集成——不是巧合,是战略。每一个工具都让你更深地陷入AWS的Agent生态。

「小而专」模型时代的到来

通用大模型在训练数据质量和规模上的竞争,可能正在让位给另一场竞争:谁能更高效地把通用模型定制成领域专家。这场竞争的工具,是RL,是合成数据,是像Multi-turn RL这样的无服务器基础设施。


当AI开始学会「通关」而不只是「答题」,企业AI落地的最后一个技术壁垒——多步骤任务可靠性——开始有了解法。

这个解法来自强化学习。来自无服务器基础设施。来自把训练环境直接连接到真实业务系统的能力。

AWS在这个时间节点推出Multi-turn RL,时机上与Anthropic Partner Network的发布形成了有趣的呼应:一个解决「谁来帮企业落地AI」的问题,一个解决「怎么让AI在企业任务中真的好用」的问题。

两个问题都不容易。两个答案都在2026年6月3日出现了。


AWS SageMaker AI Multi-turn RL文档:Amazon SageMaker AI documentation