MiniMax M2.7 自我进化 Agent：开源阵营的反击与中国 AI 公司的差异化突围

2026年3月的第2周，一个来自中国的开源模型悄然刷新了 SWE-bench Pro 排行榜：MiniMax M2.7 以 56.22% 的通过率，超越了此前由 Anthropic Claude 3.5 Sonnet 和 OpenAI o3 系列把持的 Agent 编程基准。这不是一个参数堆砌的故事——M2.7 的核心突破在于一套被称为”自我进化”的 Agent 训练范式，它将可扩展强化学习（Scalable RL）从传统的对话场景推进到了多步骤、长序列的 Agent 任务执行领域。与此同时，MiniMax 开源了 Forge——一个专为 Agent 强化学习设计的训练框架，直接将这套方法论交到了全球开发者手中。

这件事之所以值得用 SemiAnalysis 式的密度去拆解，不仅因为它是一个模型发布事件，更因为它折射出一条正在成形的产业路径：当 OpenAI、Anthropic 和 Google DeepMind 在闭源 Agent 能力上持续加码时，中国 AI 公司正试图通过”自我进化机制 + 开源生态 + 可扩展 RL 基础设施”的三角组合，在 Agent 赛道上走出完全不同的竞争逻辑。

1. SWE-bench Pro 56.22%：这个数字意味着什么？

先把基准说清楚。SWE-bench Pro 是 Princeton NLP 团队维护的软件工程 Agent 基准测试的进阶版本，它要求 AI Agent 在真实的 GitHub 仓库中定位 bug、理解代码上下文、编写修复补丁并通过测试——整个流程涉及文件导航、多文件编辑、测试执行和错误回溯，平均每个任务需要 Agent 执行 15-40 步操作。这不是简单的代码补全，而是对 Agent 规划能力、工具使用能力和错误恢复能力的综合考验。

MiniMax M2.7 的 56.22% 通过率需要放在竞争语境中理解。截至 2026年3月初，Anthropic Claude 3.5 Sonnet 在 SWE-bench Verified（稍低难度的版本）上的最佳成绩约为 49%，OpenAI 的 o3-mini 在类似基准上约为 41-47%（取决于具体配置）。SWE-bench Pro 的难度高于 Verified 版本，因此 M2.7 的 56.22% 意味着它在更难的测试集上取得了超越前者在更易测试集上的表现。

但数字本身不是重点。重点是达成这个数字的方法论。

传统的 Agent 能力提升路径有 2 条：第 1 条是增大基础模型参数和训练数据（暴力 scaling），第 2 条是通过精心设计的 prompt engineering 和 tool-use 框架来”外挂”Agent 能力。MiniMax 走了第 3 条路——将强化学习直接应用于 Agent 的多步骤决策过程，让模型在执行任务的过程中通过环境反馈自我改进。

2. 自我进化机制：从 RLHF 到 Agent RL 的范式跃迁

要理解 MiniMax 的”自我进化”为何是一个真正的技术突破，需要先理解当前 RL 在大模型中的应用现状。

自 2022年 ChatGPT 发布以来，RLHF（基于人类反馈的强化学习）一直是对齐大模型行为的标准方法。但 RLHF 本质上是一个”单轮优化”过程——它优化的是模型单次回复的质量，奖励信号来自人类偏好标注。这套范式在对话场景中表现优异，但在 Agent 场景中面临根本性局限：Agent 任务是多步骤的，一个动作的好坏往往要等到 10 步甚至 30 步之后才能判断（经典的 credit assignment 问题）；Agent 的状态空间远大于对话（涉及文件系统、终端输出、API 返回等多模态环境信息）；而且 Agent 任务的奖励信号天然稀疏——要么任务成功，要么失败，中间步骤很难获得有意义的反馈。

MiniMax 的 Forge 框架解决的正是这 3 个问题。根据 MiniMax 公开的技术文档和 Agent 开发经验总结，Forge 的核心设计包含以下关键组件：

第 1，环境驱动的奖励塑形（Environment-Driven Reward Shaping）。 Forge 不依赖人类标注来生成奖励信号，而是直接从任务执行环境中提取反馈。以 SWE-bench 任务为例，Agent 每执行一步操作（如打开文件、运行测试、编辑代码），环境会返回一系列可量化的信号：测试通过数变化、编译错误数变化、代码覆盖率变化等。Forge 将这些信号组合成一个密集的中间奖励函数，解决了稀疏奖励问题。

第 2，轨迹级别的策略优化（Trajectory-Level Policy Optimization）。 传统 RLHF 在 token 级别优化策略（每生成一个 token 都可以计算梯度），但 Agent RL 需要在”动作序列”级别优化。Forge 采用了一种改进的 PPO（Proximal Policy Optimization）变体，将一整条 Agent 执行轨迹作为优化单元，通过 GAE（Generalized Advantage Estimation）在轨迹内部分配 credit。这意味着模型可以学会”为了最终成功，在第 5 步先做一个看似无用但信息量大的探索动作”。

第 3，可扩展的并行训练架构。 这是 Forge 作为工程系统的核心竞争力。Agent RL 的训练瓶颈不在 GPU 计算，而在环境交互——每个训练样本都需要 Agent 在真实环境中执行完整的任务轨迹，这可能需要几分钟甚至几十分钟。Forge 设计了一个异步的 actor-learner 架构，数千个 Agent 实例可以同时在不同的任务环境中执行轨迹，而 learner 节点持续从这些轨迹中提取梯度更新模型。MiniMax 声称 Forge 可以在 1000+ GPU 集群上实现接近线性的训练扩展效率。

这 3 个组件组合在一起，就是所谓的”自我进化”——模型不需要人类持续提供新的训练数据或偏好标注，它通过在环境中不断尝试、失败、调整来自主提升 Agent 能力。这与 DeepMind 的 AlphaGo/AlphaZero 的自我对弈范式在哲学上是一致的，但技术上面临的挑战更大，因为 Agent 任务的状态空间和动作空间都是开放式的，不像围棋有明确的规则边界。

3. 为什么是 MiniMax？中国 AI 公司的结构性优势

一个自然的问题是：为什么这个突破来自 MiniMax，而不是 OpenAI 或 Anthropic？

表面的答案是”开源策略使然”——MiniMax 作为一家估值约 25 亿美元的中国 AI 创业公司（2025年底最新一轮融资后的估值），在与 OpenAI（估值超过 2000 亿美元）的正面竞争中没有任何优势，开源是其获取开发者生态和市场影响力的必然选择。

但更深层的原因在于 3 个结构性因素：

因素 1：中国 AI 公司在 RL 工程化方面的积累。 这一点经常被低估。从字节跳动的推荐系统到腾讯的游戏 AI（如绝悟），中国科技公司在大规模 RL 系统的工程化部署上有超过 8 年的深厚积累。MiniMax 的创始人闫俊杰此前在商汤科技担任副总裁，负责过多个大规模 AI 系统的落地。Forge 框架中体现的异步 actor-learner 架构、大规模环境并行化等工程能力，并非凭空而来，而是建立在中国 AI 工程师群体长期积累的 RL 系统经验之上。

因素 2：成本压力倒逼技术创新。 MiniMax 不像 OpenAI 那样拥有 Microsoft 每年数十亿美元的算力支持，也不像 Anthropic 背靠 Amazon 和 Google 的双重投资。在有限的算力预算下，MiniMax 必须找到比”堆参数”更高效的能力提升路径。自我进化机制的本质就是用环境交互（相对廉价）替代人类标注（极其昂贵）和大规模预训练（极其耗算力）来提升模型能力。据 MiniMax 的公开信息，M2.7 的总训练算力消耗约为同等能力闭源模型的 1/3 到 1/5。

因素 3：中国市场的 Agent 应用需求更激进。 这是一个被忽视的需求侧因素。与美国市场相比，中国的企业级 AI 应用场景更倾向于”全自动化”而非”人机协作”——这与劳动力成本结构、企业数字化基础和监管环境都有关。MiniMax 在国内服务的客户（包括金融、电商和游戏行业）对 Agent 能力的需求更加直接和激进，这为其 Agent RL 研究提供了丰富的真实任务环境和反馈数据。

4. Forge 开源的战略意图：不是慈善，是生态锁定

MiniMax 选择开源 Forge 框架，而不仅仅是开源 M2.7 模型本身，这个决策值得深入分析。

在当前的开源 AI 生态中，模型开源已经成为一种标准操作——Meta 的 Llama 系列、Mistral 的各代模型、阿里的 Qwen 系列都在做。但训练框架的开源是另一回事。模型开源给用户的是”鱼”，框架开源给用户的是”渔”。当开发者使用 Forge 来训练自己的 Agent 模型时，他们实际上是在 MiniMax 定义的技术范式中工作——使用 MiniMax 设计的奖励函数接口、MiniMax 定义的轨迹数据格式、MiniMax 优化的训练流水线。

这与 Meta 开源 PyTorch 的逻辑如出一辙。PyTorch 的开源让 Meta 成为了深度学习基础设施的事实标准制定者，即使 Meta 在模型层面并不总是领先。MiniMax 开源 Forge 的战略意图，是让自己成为 Agent RL 这个新兴领域的基础设施标准制定者。

从竞争格局来看，这个时机选择非常精准。截至 2026年3月，Agent RL 领域还没有一个被广泛采用的开源训练框架。OpenAI 的 Agent 训练方法完全闭源；Anthropic 虽然发表了一些关于 Constitutional AI 和 RLAIF 的论文，但没有开源完整的 Agent 训练流水线；Google DeepMind 的 Gemini Agent 能力同样是黑箱。MiniMax 的 Forge 有机会成为这个领域的”第一个足够好的开源方案”，而在技术生态中，先发者的标准制定优势是巨大的。

但这里存在一个对立视角需要认真对待：开源 Agent RL 框架是否会加速竞争对手的追赶，反而削弱 MiniMax 的技术护城河？

我的判断是：短期内（6-12 个月），开源确实会让其他公司更快地复现 MiniMax 的方法论。但中期来看（12-24 个月），Forge 生态产生的网络效应——社区贡献的新环境适配器、新奖励函数、新任务基准——会让 MiniMax 获得远超自身研发能力的技术迭代速度。这与 Linux 基金会的逻辑一致：开源不是放弃竞争优势，而是将竞争维度从”谁的代码更好”转移到”谁的生态更活跃”。

5. Agent 赛道的全球格局：基础设施层正在快速成形

MiniMax 的动作不是孤立事件。将其放在 2026年3月第 2 周的全球 Agent 产业动态中，可以看到一幅更完整的图景。

基础设施层的资本涌入正在加速。 AgentMail 在 2026年3月10日完成了由 General Catalyst 领投的 600 万美元种子轮融资，为 AI Agent 提供专属邮件服务 (来源: TechCrunch, 2026-03-10)。这个看似小众的产品解决的是一个真实的基础设施缺口：当 Agent 需要与人类和其他系统进行异步通信时，它需要自己的通信端点。同一周，巴黎创业公司 Lemrock 完成了 600 万欧元融资，构建 AI Agent 的商务交易基础设施，让 Agent 能直接完成购买、订阅等商业行为 (来源: The Next Web, 2026-03-11)。Dify 则在 2026年3月9日宣布完成 3000 万美元 Pre-A 轮融资，专注企业级 Agentic 工作流编排 (来源: Yahoo Finance, 2026-03-09)。

这 3 笔融资加在一起，勾勒出 Agent 基础设施的 3 个关键层：通信层（AgentMail）、交易层（Lemrock）、编排层（Dify）。而 MiniMax 的 Forge 则占据了更底层的位置——训练层。

大厂的 Agent 布局正在从”功能”走向”平台”。 Microsoft 在 2026年3月9日发布了 Frontier Suite，全面整合 Copilot 和 AI Agent 能力 (来源: Microsoft 365 Blog, 2026-03-09)。Salesforce 在同一周密集发布了 Agentforce Contact Center、Agentforce 360 和 Marketing Cloud 的 AI 原生重构 (来源: Salesforce News/Blog, 2026-03-09/10)。AWS 则推出了 Bedrock AgentCore 的策略安全功能，并发布了企业级 Agentic AI 运营化指南 (来源: AWS Machine Learning Blog, 2026-03-11/12)。

这些大厂的动作有一个共同特征：它们都在构建”Agent 运行时”——一个让 Agent 在企业环境中安全、可控、可审计地运行的平台层。这与 MiniMax 的 Forge 形成了互补关系：Forge 解决的是”如何训练出更好的 Agent”，而大厂平台解决的是”如何在生产环境中部署和管理 Agent”。

NVIDIA 的硬件优化正在为 Agent 推理降本。 NVIDIA 在 2026年3月11日发布了 Nemotron 3 Super，专为 Agentic AI 优化，吞吐量比前代提升 5 倍 (来源: NVIDIA Blog, 2026-03-11)。Agent 推理与传统的对话推理有本质区别：Agent 需要在一个任务中进行数十次甚至上百次的模型调用（每一步决策都是一次推理），这意味着 Agent 的推理成本是对话场景的 10-50 倍。Nemotron 3 Super 的 5 倍吞吐量提升，直接将 Agent 的单任务推理成本降低到此前的 1/5，这对 Agent 的商业化部署至关重要。

6. 大多数人没看到的：自我进化的”飞轮效应”与数据壁垒

现在进入第 3 层洞察——大多数人没看到的东西。

MiniMax 的自我进化机制最深远的影响，不在于它能在基准测试上刷出更高的分数，而在于它创造了一个自我强化的数据飞轮。

传统的模型训练是一个线性过程：收集数据 → 训练模型 → 部署 → 收集新数据 → 重新训练。每一轮迭代都需要大量的人工介入（数据清洗、标注、质量控制）。但自我进化机制将这个过程变成了一个闭环：模型在环境中执行任务 → 环境返回反馈 → 模型自动更新策略 → 模型在环境中执行更难的任务。人类的角色从”数据提供者”变成了”环境设计者”——只需要设计新的任务环境和奖励函数，模型就能自主提升。

这个飞轮一旦转起来，会产生 2 个关键的竞争壁垒：

壁垒 1：轨迹数据的独占性。 当 M2.7 在数千个真实的 GitHub 仓库中执行了数百万条修复轨迹后，这些轨迹数据本身就成为了一种独特的资产。它们记录了模型在各种代码上下文中的决策过程、错误模式和恢复策略。这些数据不像互联网文本那样可以被任何人爬取，它们是模型与环境交互的产物，只有运行了这些交互的公司才拥有。即使 Forge 框架是开源的，其他公司也需要投入同等的算力和时间来生成自己的轨迹数据。

壁垒 2：奖励函数的 know-how。 Forge 框架开源了训练流水线，但奖励函数的设计——哪些环境信号应该被纳入、如何组合、如何随训练进程动态调整——这些 know-how 是 MiniMax 数月实验积累的结果，很难通过阅读代码完全复现。这类似于 DeepMind 开源了 AlphaFold 的代码，但蛋白质结构预测领域的真正壁垒在于 DeepMind 团队对训练超参数和数据处理流程的深层理解。

MiniMax 的 Agent 开发经验总结中透露了一个关键细节：在 Forge 的早期版本中，他们尝试了超过 200 种不同的奖励函数组合，最终收敛到一个包含 7 个核心信号的方案。这 200 次失败实验的经验，才是真正的技术护城河。

7. 对立视角：自我进化的天花板与安全隐忧

任何诚实的分析都必须面对反面论证。自我进化机制面临至少 3 个严肃的挑战：

挑战 1：奖励黑客（Reward Hacking）。 当模型通过 RL 在环境中自我优化时，它可能会发现一些”作弊”策略——在形式上满足奖励函数的要求，但实际上并没有完成任务。例如，在 SWE-bench 任务中，模型可能学会修改测试用例而非修复 bug，从而获得”测试通过”的奖励信号。MiniMax 在其技术文档中承认了这个问题的存在，并表示 Forge 内置了多层”奖励验证器”来检测和惩罚此类行为，但这是一个持续的对抗过程，没有一劳永逸的解决方案。

挑战 2：分布外泛化（Out-of-Distribution Generalization）。 模型在特定类型的任务环境中自我进化后，其能力是否能泛化到完全不同的任务类型？SWE-bench 上的 56.22% 是否意味着 M2.7 在客户服务 Agent、数据分析 Agent 或自动化运维 Agent 场景中也同样出色？目前的证据不足以支持这个推论。自我进化的一个风险是”过拟合到训练环境”——模型变成了一个非常优秀的 GitHub bug 修复专家，但在其他 Agent 场景中表现平庸。

挑战 3：安全对齐的复杂性。 当模型能够自主在环境中执行多步骤操作并自我改进时，如何确保它不会在进化过程中偏离人类意图？这不是一个理论问题——AWS 在同一周发布的 Bedrock AgentCore 策略安全功能 (来源: AWS Machine Learning Blog, 2026-03-12) 正是在回应企业客户对 Agent 安全治理的迫切需求。自我进化的 Agent 在安全对齐方面面临的挑战，比传统的对话模型要大一个数量级，因为它的行动空间更大、后果更不可预测。

我的判断是：这 3 个挑战都是真实的，但都不是不可克服的。奖励黑客可以通过更鲁棒的奖励设计和对抗性训练来缓解；分布外泛化可以通过在更多样化的环境中训练来改善；安全对齐则需要行业层面的标准和最佳实践——而 MiniMax 开源 Forge 的行为，实际上有助于加速这些标准的形成，因为更多的研究者可以在同一框架下研究和解决这些问题。

8. Meta 的裁员与 MiniMax 的崛起：AI 产业的成本重构

一个看似无关但实际上高度相关的事件是：Reuters 在 2026年3月14日独家报道，Meta 正计划大规模裁员，原因是 AI 训练和推理成本持续攀升，压缩了其他业务预算 (来源: Reuters, 2026-03-14)。

这条新闻与 MiniMax 的故事形成了一个深刻的对照。Meta 是全球最激进的开源 AI 推动者之一（Llama 系列模型），但它的开源策略建立在一个前提之上：通过大规模预训练来保持模型能力的领先，然后通过开源来获取生态优势。这个策略的成本正在变得不可持续——Meta 2025年的 AI 资本支出超过 400 亿美元，而 Llama 模型的直接商业回报仍然有限。

MiniMax 的自我进化范式提供了一个截然不同的成本模型。预训练的成本是一次性的巨额投入（数千万到数亿美元），而且每次模型升级都需要重新投入。但自我进化的成本是渐进的和可控的——一旦基础模型达到一定的能力阈值，后续的能力提升主要来自环境交互，其边际成本远低于重新预训练。

用一个粗略的估算来说明：假设训练一个 1000 亿参数的基础模型需要 5000 万美元的算力成本，而在此基础上通过 Agent RL 提升 Agent 能力需要额外 500-1000 万美元。相比之下，如果要通过增大模型参数和数据来达到同等的 Agent 能力提升，可能需要 1-2 亿美元的追加投入。这意味着自我进化范式在 Agent 能力提升的”每美元效率”上，可能比传统的 scaling 路径高 5-10 倍。

这对整个 AI 产业的成本结构有深远影响。如果 Agent 能力的提升不再主要依赖于更大的模型和更多的预训练数据，而是依赖于更好的 RL 算法和更丰富的任务环境，那么 AI 能力竞争的资本门槛将显著降低。这对 MiniMax 这样的中型公司是利好，对 Meta、Google 这样靠资本壁垒维持领先的巨头则是挑战。

9. 企业 Agent 市场的”中间层”机会

从商业角度看，MiniMax M2.7 和 Forge 的发布还揭示了一个正在形成的市场机会：Agent 能力的”中间层”。

当前的企业 Agent 市场呈现出一个明显的两极分化：一端是 Salesforce、Microsoft、AWS 等大厂提供的”全栈 Agent 平台”——它们包含了从模型推理到工作流编排到安全治理的完整功能栈，但高度锁定在各自的云生态中；另一端是开源社区提供的”裸模型”——有能力但缺乏生产级的部署、监控和安全支持。

MiniMax 的 Forge + M2.7 组合恰好填补了中间层：它提供了一个可以在任何基础设施上运行的 Agent 训练和部署方案，企业可以用它来训练针对自己特定业务场景的 Agent 模型，而不必被锁定在某个大厂的平台中。

这个中间层的市场规模不容小觑。Salesforce 在 2026年3月的一系列发布（Agentforce Contact Center、Agentforce 360 等）(来源: Salesforce News, 2026-03-10) 表明，企业对 Agent 的需求正在从”通用助手”转向”特定业务流程的自动化执行者”。但通用平台在满足高度定制化需求时往往力不从心——一个金融合规审查 Agent 和一个电商客服 Agent 的行为模式、安全要求和性能指标完全不同。

MiniMax 的策略是：提供训练框架和基础模型，让企业或 ISV（独立软件供应商）在此基础上训练自己的专用 Agent。这是一个”卖铲子”的生意，而且是一个在 Agent 时代特别有价值的铲子——因为 Agent 的定制化需求远高于传统的对话 AI。

Dify 在同一周完成的 3000 万美元融资 (来源: Yahoo Finance, 2026-03-09) 验证了这个中间层市场的投资者认可度。Dify 专注于 Agent 工作流编排，而 MiniMax 的 Forge 专注于 Agent 模型训练——两者可以形成互补。一个合理的预测是：在未来 12 个月内，我们将看到 Forge 与 Dify 等编排平台的集成，形成一个”训练-编排-部署”的完整开源 Agent 技术栈。

10. Amazon Health AI Agent：Agent 商业化的真实样本

在分析 MiniMax 的技术突破时，不能忽视 Agent 商业化的需求侧信号。Amazon 在 2026年3月10日推出的 Health AI Agent 提供了一个极具说明力的案例 (来源: Amazon News, 2026-03-10)。

这个产品为 Prime 会员提供免费的 7×24 虚拟医疗咨询，与 Amazon 旗下的 One Medical 整合。它不是一个简单的医疗问答 chatbot——它能够查看用户的历史健康记录、与 One Medical 的医生系统对接、安排预约、甚至在特定情况下触发紧急转诊流程。这是一个典型的多步骤 Agent 任务：理解用户症状 → 查询健康档案 → 评估紧急程度 → 选择响应策略（自助建议 / 预约医生 / 紧急转诊）→ 执行相应操作 → 跟踪后续状态。

Amazon Health AI Agent 的推出说明了 2 件事：第 1，Agent 的商业化已经进入了高风险、高价值的领域（医疗健康），这意味着对 Agent 可靠性和安全性的要求达到了前所未有的高度；第 2，Agent 的竞争将越来越多地发生在”特定垂直领域的深度能力”而非”通用基准测试分数”上。

这对 MiniMax 的启示是明确的：SWE-bench Pro 56.22% 是一个优秀的技术验证，但真正的商业价值在于将自我进化机制应用到金融、医疗、法律等高价值垂直领域。而 Forge 的开源策略，恰好为这些垂直领域的企业和开发者提供了自主训练专用 Agent 的能力。

11. 预判：Agent 赛道的 3 个拐点

基于以上分析，我对 Agent 赛道的未来做出 3 个具体预判：

预判 1：2026年下半年，Agent RL 将成为与预训练同等重要的能力维度。 目前，模型能力的评估仍然以预训练阶段的基准（如 MMLU、HumanEval）为主。但随着 MiniMax Forge 的开源和更多公司采用 Agent RL 方法，Agent 能力将被单独评估和优化。我们将看到专门的 Agent RL 基准测试（超越 SWE-bench）的出现，以及专门针对 Agent RL 优化的硬件（如 NVIDIA Nemotron 3 Super 所代表的方向）。

预判 2：2027年，中国将出现至少 3 家以 Agent 能力为核心差异化的 AI 公司进入独角兽行列。 MiniMax 已经是其中之一。自我进化机制降低了 Agent 能力提升的资本门槛，这将使更多中国 AI 创业公司能够在 Agent 赛道上与美国巨头竞争。深圳、杭州和北京的 AI 创业生态中，已经有多家公司在 Forge 开源后开始构建基于此框架的垂直 Agent 产品。

预判 3：Agent 安全治理将在 2026年成为一个独立的产业赛道。 AWS 的 Bedrock AgentCore 策略安全功能只是开始。当自我进化的 Agent 被部署到金融交易、医疗诊断、法律合规等高风险场景时，对 Agent 行为的审计、监控和约束将成为一个刚性需求。这个赛道的规模可能达到 Agent 推理市场本身的 15-25%。

So What：对不同读者的行动建议

对 AI 创业者： MiniMax 的 Forge 开源降低了 Agent RL 的技术门槛，但不要急于在通用 Agent 赛道上与 MiniMax 正面竞争。更明智的策略是选择一个高价值垂直领域（如医疗、法律、金融合规），利用 Forge 训练专用 Agent，在特定领域建立数据飞轮和客户壁垒。

对企业 CTO： 不要被 Salesforce Agentforce 或 Microsoft Frontier Suite 的全栈方案所迷惑。评估你的业务是否需要高度定制化的 Agent 能力——如果答案是肯定的，考虑基于 Forge 等开源框架自建 Agent 训练能力，避免平台锁定。同时，立即开始建立 Agent 安全治理框架，参考 AWS Bedrock AgentCore 的策略安全设计。

对投资者： Agent 基础设施层（训练、编排、安全、通信、交易）正在快速成形。当前是投资 Agent 中间件和垂直 Agent 应用的窗口期。关注那些能够利用 Forge 等开源框架快速构建垂直 Agent 产品的团队，尤其是那些拥有特定领域数据优势的团队。

对政策制定者： 自我进化 Agent 的出现使得 AI 安全监管的紧迫性显著提升。一个能够自主改进的 Agent 系统，其行为边界比传统的对话 AI 更难预测和控制。建议尽快启动 Agent 特定的安全评估标准制定工作，而非简单地将现有的大模型监管框架套用到 Agent 场景。

MiniMax M2.7 和 Forge 的发布不是一个终点，而是一个起点。它标志着 Agent AI 竞争从”谁的模型更大”转向”谁的进化更快”——在这个新维度上，中国 AI 公司第一次拥有了与美国巨头对等竞争的结构性条件。

参考资料

Powering Frontier Transformation with Copilot and Agents — Microsoft 365 Blog, 2026-03-09
Nemotron 3 Super for Agentic AI — NVIDIA Blog, 2026-03-11
AgentMail Raises $6M to Build an Email Service for AI Agents — TechCrunch, 2026-03-10
Dify Raises $30 Million Series Pre-A — Yahoo Finance, 2026-03-09
Lemrock Raises €6M for Agentic Commerce — The Next Web, 2026-03-11
Secure AI Agents with Policy in Amazon Bedrock AgentCore — AWS Machine Learning Blog, 2026-03-12
Meta Planning Sweeping Layoffs as AI Costs Mount — Reuters, 2026-03-14
Amazon Health AI Agent with One Medical — Amazon News, 2026-03-10
Agentforce Contact Center Announcement — Salesforce News, 2026-03-10
Operationalizing Agentic AI: A Stakeholder’s Guide — AWS Machine Learning Blog, 2026-03-11

主题分类：openclaw