记忆,AI Agent最后的拼图:Claude Managed Agents Memory公测,让「学会」的机器开始真正工作
2026年4月23日,一个看起来普通的功能发布,悄悄改变了企业AI基础设施的底层逻辑。
Anthropic宣布Claude Managed Agents的持久化记忆功能进入公测阶段。没有发布会,没有全球直播,没有媒体头版。只有一篇官方博客,和几家早期合作企业提供的真实使用数据:Netflix、Rakuten、Wisedocs、Ando。
但如果你在过去两年里持续观察企业AI部署的失败模式,这个发布的意义远不止一次功能更新。它标志着AI Agent从「工具」向「同事」的过渡,终于有了一块真正的基石。
一、每次会话都是第一天
在这次更新之前,几乎所有的企业AI Agent系统都共享一个根本性缺陷:每次会话结束,Agent就像被清空了记忆的角色扮演游戏NPC,重新回到起点。
不是比喻,是字面意思。
Netflix的工程师要花时间手写会话笔记,把上次Agent花了数轮对话才发现的关键洞见,重新塞进下一次对话的prompt。Rakuten做长周期任务的Agent,每次启动都要从零开始,第一轮犯过的错误,第二轮还会犯,第三轮依然如此。Wisedocs的文档验证流水线,面对同一类型文档反复出现的格式错误,没有任何积累——每一次都是第一次见。
这不是工程师偷懒,不是产品经理疏忽,这是架构的硬约束。大语言模型本质上是无状态服务(stateless service):它接收输入,返回输出,然后遗忘。让它「记住」东西,只有几条路:
第一,把所有需要记住的内容手动塞进context,但context窗口是有限的,成本随长度线性增长,而且内容越积越多,管理本身就成了负担。
第二,搭RAG系统,用向量数据库存储历史信息,用检索管道在需要时取出来。这个方案有效,但需要大量工程工作:选向量数据库、设计嵌入策略、调优检索参数、处理信息过期和更新。
第三,自己造记忆基础设施——一套定制的存储+检索+管理系统。每家想做企业级Agent的公司,大多走到了这条路。这些基础设施往往是非标准的,难以在Agent之间共享,维护成本高,而且几乎无法迁移。
这是行业性的效率黑洞。每一家部署企业Agent的公司,都要把大量工程资源投入在「让Agent记住东西」这件本应是基础设施提供的事情上,而不是投入在Agent本身应该做的业务逻辑上。
二、文件系统,一个出人意料的选择
Claude Managed Agents Memory的技术路线,做了一个颇出意料的决定:不是向量数据库,是文件系统。
这个决定乍看像是倒退,实际上是深思熟虑的结果。
文件系统对Claude模型来说不是陌生的抽象——Anthropic的模型家族本来就有强大的bash和代码执行工具使用能力。把记忆挂载到文件系统上,意味着模型可以用它最自然的方式读取、写入、更新记忆:执行shell命令,处理标准文件,用熟悉的方式组织信息。
Anthropic在官方博客中明确说明,Opus 4.7经过专门优化以更好地使用文件系统记忆,能「保存更全面、有组织的记忆,并且对每个任务该记什么更有判断力」。这意味着最新模型能够主动管理自己的记忆:什么值得存储,以什么格式存储,哪些信息在下次会话前需要整理和更新。
这种自主管理能力是向量数据库方案很难复制的。向量数据库是被动的存储系统,需要外部程序决定什么被存、什么被检索。文件系统+语言模型的组合,让Agent成了自己记忆系统的主动管理者。
企业级属性同样经过精心设计:
权限隔离:每个工作区有独立的记忆范围,可以设置多层访问权限——组织级存储设为只读,用户级存储允许读写。多个Agent可以并发访问同一个记忆存储,系统保证并发读写的一致性,不会互相覆盖。
完整审计链:每次记忆变更都有详细日志,记录是哪个Agent、哪个会话写入的,可以追溯、回滚,甚至可以从历史中删除特定内容。开发者可以在Claude Console中看到「这个Agent在这次会话里学到了什么」,以及这些学习是怎么发生的。
API控制:记忆是标准文件,可以通过API完整导出、独立管理。企业的数据,企业有完整控制权。
跨Agent共享:多个不同功能的Agent可以读写同一个记忆存储,协同积累组织知识。一个分析型Agent发现的规律,可以直接成为执行型Agent的先验知识。
Anthropic显然花了大量时间研究企业用户为什么不信任AI Agent。答案反复出现在一个核心问题上:不透明、不可控、不知道它「学到了什么」。这次的设计,像是逐条回应这些具体焦虑写出来的产品规范。
三、数字背后的故事:97%意味着什么
发布博客里,Anthropic引用了4家早期合作伙伴的数据。这些数字值得仔细分析。
Rakuten的案例最具代表性。
这家日本电商巨头使用任务型长周期Agent。开启记忆功能后,他们在官方引述中报告的数字是:首次处理错误减少97%,Agent运行成本下降27%,延迟降低34%。
97%的错误减少,这不是性能调优,这是行为的根本性改变。
传统的质量改进循环是:AI给出错误输出 → 人工发现问题 → 分析根本原因 → 修改代码或Prompt → 重新测试 → 部署更新。这个循环短则数天,长则数周,而且依赖人工在每个环节的介入。
记忆系统创造了一个新的循环:AI给出错误输出 → 人工在会话中给出纠正 → Agent把这次纠正作为记忆存储下来 → 下次会话,错误不再发生。人工的介入从「离线的系统更新」变成了「在线的实时反馈」,效果反而更快、更精准。
成本和延迟的下降是自然的派生结果:Agent不需要每次重新推理已经有明确答案的问题。这些答案,已经存在记忆文件里了。每减少一次冗余推理,就是节省了时间和算力。
Rakuten的AI负责人Yusuke Kaji的引述说出了这背后的逻辑:「用户不再需要反复纠正系统已经学会如何避免的错误,而且记忆范围在工作区内是可观测的,学习过程始终在我们的控制之下。」
这两点同等重要:学习效果,和学习的可控性。
Netflix的案例揭示的是另一个层面。
他们的报告集中在一个具体场景:Agent现在能在会话之间携带上下文,「包括需要多轮对话才能发现的洞见,以及人工在对话中途给出的纠正」。
「多轮对话才能发现的洞见」——这句话值得细嚼。有些知识只有在足够多的交互之后才能形成模式认知。比如某类内容的特定受众偏好,比如某个工作流的隐性约束,比如某个业务逻辑的历史沿革。
这类洞见无法被写进静态Prompt,因为它们往往在系统设计时并不明确,只有在使用过程中逐渐浮现。没有记忆系统,每次会话重置就意味着这些已浮现的洞见被清空,下次还要花同样的对话轮数重新发现。
记忆系统让这类知识积累成为可能。不是靠工程师手动整理文档,而是在自然的使用过程中自动沉淀。
Wisedocs的案例最纯粹。
文档验证是典型的高重复性场景:同类文件有共同的格式约定,有反复出现的错误模式,有特定文档来源的特定注意事项。有了跨会话记忆,Agent不需要每次对着一份新文档「重学」这份文档类型的规则。验证速度提升30%,是从「无记忆的重复劳动」到「有记忆的模式识别」的直接转换。
Ando的选择最说明问题。
这家为工作场景构建对话平台的创业公司,在使用Managed Agents Memory之后,做了一个决定:停止自建记忆基础设施。创始人Sara Du的原话是:「一个好的记忆API解决了很多基础设施的头疼问题,尤其是在跨Agent和跨会话构建时。我们可以停止建设记忆基础设施,专注于产品本身。」
这是这4个案例中最直接的商业逻辑:把非核心的、通用的基础设施外包出去,把工程资源集中在真正创造差异化价值的地方。
四、无状态时代为什么失败
要理解这次更新的战略意义,需要回到一个被反复讨论但从未真正被技术层面解决的问题:为什么企业AI部署的成功率这么低?
行业分析师和企业CIO的调查数据反复指向同一个结论:大多数企业AI项目(尤其是Agent相关项目)难以从试点阶段规模化到生产部署。据第三方机构的多份企业AI调查(来源:McKinsey Global Institute、Gartner 2025-2026),「AI系统无法持续适应业务上下文变化」是反复出现的失败原因之一。导致这些失败的技术根因,有一个被系统性低估了:无状态AI无法在企业环境中有效积累组织知识。
企业工作的本质是积累性的。一个组织的价值,很大程度上来自于它积累的经验:成功过的方案、失败过的路径、特定场景下的最优做法、每个团队的工作偏好和规范。这些经验以多种形式存在:文档、流程、人员的头脑里,以及日积月累的「我们这里就是这么做的」的默认知识。
一个无状态的AI Agent,无法学习这些积累性知识。它可以每次读取文档,但不能从实际工作中形成经验。它可以被告知规则,但不能从观察中理解规则背后的原因和边界。它可以完成当次任务,但不会因为做了更多任务而变得更好。
这种无法积累的特性,让AI Agent在企业场景中的体验更像是一个「反复入职的新人」——每次开会都要重新介绍背景,每次犯错都要重新解释为什么这样不行,每次合作都从零开始建立信任和默契。
有状态AI(Stateful AI)的概念在2024年就开始被广泛讨论。但从概念到可在生产环境部署的企业级产品,中间有一条工程鸿沟:如何保证记忆的可靠性?如何防止记忆污染?如何在多租户环境下隔离不同用户的记忆?如何让记忆系统符合企业的合规和安全要求?
这些不是算法问题,是系统工程问题。Anthropic这次的实现,是目前市场上已知的最接近完整答案的一个。不是因为技术革命性,而是因为它把企业真正需要的每一个细节都想到了,并且给出了可操作的解决方案。
五、两个对立的视角
但任何宣称有大幅改进的产品发布,都值得认真审视乐观和怀疑两个方向的声音。
乐观的叙事:
记忆系统是AI Agent从「可用」到「好用」的关键跨越。过去两年,企业部署AI Agent面临的最大挑战之一就是「维护成本高」——这包括持续的Prompt工程、定期的评估和调整、当AI行为退化时的诊断和修复。这些工作的存在,根本原因是AI没有从使用过程中自主学习和改进。
记忆系统让Agent有了自主学习路径。Rakuten的97%错误减少,如果能在更广泛的企业场景中复现,意味着AI Agent的维护成本可以大幅降低,ROI会出现质的改变。这是把AI Agent从「需要持续人工看管的工具」变成「能够自我管理的协作者」的第一步。
更大的战略意义是组织知识的数字化。企业最有价值的知识,往往是难以言说的隐性知识(tacit knowledge):为什么这个方案在我们这里会失败,那个供应商的真实交货周期是多少,某个客户偏好什么样的沟通方式。这类知识存在于有经验的员工脑子里,极难文档化,随人员流动大量流失。有了记忆系统,Agent可以在日常工作中自动沉淀这类知识——不是替代员工,而是把原本只存在于人脑中的组织记忆,以可追溯、可分享、不会因为人员变动而消失的方式保存下来。
怀疑的声音:
第一,这些数据来自早期公测合作伙伴,存在明显的选择性偏差。愿意在产品发布博客里公开分享数据的早期用户,几乎肯定是在这个功能上获得了最好结果的那批人。真正有代表性的数据,需要来自更多样本,在更多场景下的观察。
第二,记忆系统引入了全新的风险面。记忆污染是一个真实威胁:如果Agent在某次会话中形成了一个错误的「认知」,并把它存入了记忆,这个错误会被后续所有会话继承,直到有人发现并手动清除。随着记忆积累,这种潜在的「知识错误」的传播路径会变得更复杂。
第三,多Agent共享记忆的设计在理论上很吸引人,但实际场景下的边界管理是个难题。一个Agent的「学习」,不一定对所有使用同一记忆存储的Agent都是正确的先验知识。A Agent针对客户甲优化的策略,可能对B Agent面对客户乙反而产生干扰。如何设计记忆的作用域和隔离机制,是复杂的系统设计问题,在真实大规模部署中才会完全暴露。
第四,「Agent学到了什么」的可解释性仍然有限。审计日志告诉你「这次会话之后记忆文件有了变化」,但不能告诉你「这个变化是否正确,以及它会如何影响未来的输出」。可观测性(observability)和可解释性(explainability)之间,还有相当的距离。
六、竞争版图的微妙重构
Claude Managed Agents Memory的发布,发生在AI基础设施竞争格局正在加速成形的时刻。
OpenAI的Stateful Runtime Environment(与Amazon合作)在2026年2月27日宣布,通过Amazon Bedrock向企业提供有状态计算能力。但这个方案的定位更偏向底层平台,不是专为Agent记忆场景优化的系统,也没有Anthropic这次发布中展示的那种细粒度企业级权限和审计功能。
Google在Gemini Enterprise Agent Platform上有类似的记忆功能路线图,根据2026年4月的产品发布,Google宣布了Agent工作流状态管理功能的路线图,但具体的跨会话持久记忆功能尚未进入公测。Google DeepMind内部在追赶Claude编码能力的同时,企业Agent基础设施层面的步调相对保守。
Microsoft的GitHub Copilot在开发工作流中有会话记忆,但这是面向代码场景的窄域记忆,不是通用的企业Agent记忆层。
时间节点的设计值得注意。Claude Opus 4.7在4月16日发布,官方发布说明里明确提到「Opus 4.7在使用文件系统记忆方面更好,能在长周期、多会话工作中记住重要内容,并利用这些内容推进需要更少前置上下文的新任务」。一周之后,记忆功能进入公测。更强的模型能力,配合更完善的记忆基础设施——这是有意为之的产品协同,不是巧合。
从竞争战略角度看,Anthropic正在把Claude Managed Agents定位为企业AI的「运行层」——不只是模型服务,也不只是应用平台,而是能在任何企业工作流中自主运行、持续学习、不断改进的Agent基础设施。这个定位如果成立,Managed Agents的竞争对手就不再是GPT-4o或Gemini,而是企业自建的Agent框架,以及LangChain、CrewAI、AutoGen这类开源Agent编排项目。
对于企业决策者来说,这是一个值得认真评估的选择:用供应商提供的有记忆、可管理、有审计链的托管Agent基础设施,还是自己搭建更灵活但也更复杂的定制系统?Ando的决定——停止自建,采用托管——是一种回答。但这个回答是否适用于所有规模、所有行业的企业,还有待更多真实案例验证。
七、那个没被直接说出来的问题
有一个关于记忆系统的问题,Anthropic的博客没有直接回答,媒体报道也几乎没有触及,但它对未来几年的企业AI格局至关重要:
当AI Agent积累了足够多的组织记忆,这些记忆属于谁,又对谁有价值?
表面上,Anthropic的答案已经给了:记忆文件存储在企业的工作区,企业有完整控制权,可以导出、管理、删除。这是数据所有权层面的回答,清晰而且合理。
但还有更深的一层。Rakuten的Agent记住了在哪些情况下应该采用哪种处理策略,避免哪类错误。Netflix的Agent记住了内容团队偏好的分析框架和表达方式。Wisedocs的Agent记住了特定文档来源的质量规律。
这些记忆,不只是数据文件,它们是经过实际工作验证的、针对特定组织的专业判断的结晶。这类知识,如果存在于一个有经验的员工脑子里,会被认为是这名员工的核心竞争力和市场价值的一部分。
当它转移到Agent的记忆文件里,这个「专业判断」的价值归属就变得模糊了。它不再是某个具体员工的资产,但也不完全是组织的资产,因为它的形成依赖于基础模型的学习机制和记忆系统的架构设计——而这些,是Anthropic提供的。
举一个具体的假设场景:Rakuten的某位资深运营专员,在与Agent交互的过程中,多次纠正Agent的判断,这些纠正被存入了记忆。12个月后,这位专员离职了。但她的判断框架,已经以某种形式固化在了Agent的记忆文件里,继续指导着后续的工作。这是「知识留存」的成功,还是「专业价值被无意中外部化」的另一种叙事?如果这位专员知道自己的判断会被这样存储和使用,她的劳动合同条款是否应该有所调整?
Rakuten描述的那97%的错误减少,背后有多少是从员工那里学来的专业判断?这些判断现在存在Agent的记忆文件里,下一次这个有经验的员工离职,组织还需要担心这部分知识流失吗?
这个问题,Wisedocs和Ando的数据回答不了。它需要更多时间,和对这个技术范式更诚实的长期观察。
结语:当机器开始记得昨天
Claude Managed Agents Memory公测发布,不只是一个功能里程碑。它是有状态企业AI真正进入可部署阶段的确认信号。
企业AI下一阶段的核心问题不再是「模型能力够不够」——在大多数企业场景下,当前主流模型的能力已经足够完成任务。真正的瓶颈是「Agent能不能真正融入组织」。融入需要的是:理解上下文,记住经验,随组织的节奏和需求持续演化。
记忆,是这一切的前提。
在4月23日之前,Claude Managed Agents的工作方式是:每次会话都是第一天,什么都不记得,什么都要重新学。
从4月23日开始,某些Agent开始记得昨天了。
这是一个小小的、几乎被忽略的开始。但AI和企业组织之间最重要的关系转变,也许就从这里开始。
参考资料
- Anthropic官方博客:Built-in memory for Claude Managed Agents,2026年4月23日,https://claude.com/blog/claude-managed-agents-memory
- Anthropic官方:Claude Managed Agents产品介绍,https://claude.com/blog/claude-managed-agents
- Anthropic发布说明:Claude Opus 4.7文件系统记忆能力说明,https://www.anthropic.com/news/claude-opus-4-7
- 麦肯锡全球研究院:企业AI部署现状分析(2025-2026),McKinsey Global Institute
- Rakuten Yusuke Kaji的公开引述,来源:Anthropic官方博客
- Ando创始人Sara Du的公开引述,来源:Anthropic官方博客