记忆，AI Agent最后的拼图：Claude Managed Agents Memory公测，让「学会」的机器开始真正工作

2026年4月23日，一个看起来普通的功能发布，悄悄改变了企业AI基础设施的底层逻辑。

Anthropic宣布Claude Managed Agents的持久化记忆功能进入公测阶段。没有发布会，没有全球直播，没有媒体头版。只有一篇官方博客，和几家早期合作企业提供的真实使用数据：Netflix、Rakuten、Wisedocs、Ando。

但如果你在过去两年里持续观察企业AI部署的失败模式，这个发布的意义远不止一次功能更新。它标志着AI Agent从「工具」向「同事」的过渡，终于有了一块真正的基石。

一、每次会话都是第一天

在这次更新之前，几乎所有的企业AI Agent系统都共享一个根本性缺陷：每次会话结束，Agent就像被清空了记忆的角色扮演游戏NPC，重新回到起点。

不是比喻，是字面意思。

Netflix的工程师要花时间手写会话笔记，把上次Agent花了数轮对话才发现的关键洞见，重新塞进下一次对话的prompt。Rakuten做长周期任务的Agent，每次启动都要从零开始，第一轮犯过的错误，第二轮还会犯，第三轮依然如此。Wisedocs的文档验证流水线，面对同一类型文档反复出现的格式错误，没有任何积累——每一次都是第一次见。

这不是工程师偷懒，不是产品经理疏忽，这是架构的硬约束。大语言模型本质上是无状态服务（stateless service）：它接收输入，返回输出，然后遗忘。让它「记住」东西，只有几条路：

第一，把所有需要记住的内容手动塞进context，但context窗口是有限的，成本随长度线性增长，而且内容越积越多，管理本身就成了负担。

第二，搭RAG系统，用向量数据库存储历史信息，用检索管道在需要时取出来。这个方案有效，但需要大量工程工作：选向量数据库、设计嵌入策略、调优检索参数、处理信息过期和更新。

第三，自己造记忆基础设施——一套定制的存储+检索+管理系统。每家想做企业级Agent的公司，大多走到了这条路。这些基础设施往往是非标准的，难以在Agent之间共享，维护成本高，而且几乎无法迁移。

这是行业性的效率黑洞。每一家部署企业Agent的公司，都要把大量工程资源投入在「让Agent记住东西」这件本应是基础设施提供的事情上，而不是投入在Agent本身应该做的业务逻辑上。

二、文件系统，一个出人意料的选择

Claude Managed Agents Memory的技术路线，做了一个颇出意料的决定：不是向量数据库，是文件系统。

这个决定乍看像是倒退，实际上是深思熟虑的结果。

文件系统对Claude模型来说不是陌生的抽象——Anthropic的模型家族本来就有强大的bash和代码执行工具使用能力。把记忆挂载到文件系统上，意味着模型可以用它最自然的方式读取、写入、更新记忆：执行shell命令，处理标准文件，用熟悉的方式组织信息。

Anthropic在官方博客中明确说明，Opus 4.7经过专门优化以更好地使用文件系统记忆，能「保存更全面、有组织的记忆，并且对每个任务该记什么更有判断力」。这意味着最新模型能够主动管理自己的记忆：什么值得存储，以什么格式存储，哪些信息在下次会话前需要整理和更新。

这种自主管理能力是向量数据库方案很难复制的。向量数据库是被动的存储系统，需要外部程序决定什么被存、什么被检索。文件系统+语言模型的组合，让Agent成了自己记忆系统的主动管理者。

企业级属性同样经过精心设计：

权限隔离：每个工作区有独立的记忆范围，可以设置多层访问权限——组织级存储设为只读，用户级存储允许读写。多个Agent可以并发访问同一个记忆存储，系统保证并发读写的一致性，不会互相覆盖。

完整审计链：每次记忆变更都有详细日志，记录是哪个Agent、哪个会话写入的，可以追溯、回滚，甚至可以从历史中删除特定内容。开发者可以在Claude Console中看到「这个Agent在这次会话里学到了什么」，以及这些学习是怎么发生的。

API控制：记忆是标准文件，可以通过API完整导出、独立管理。企业的数据，企业有完整控制权。

跨Agent共享：多个不同功能的Agent可以读写同一个记忆存储，协同积累组织知识。一个分析型Agent发现的规律，可以直接成为执行型Agent的先验知识。

Anthropic显然花了大量时间研究企业用户为什么不信任AI Agent。答案反复出现在一个核心问题上：不透明、不可控、不知道它「学到了什么」。这次的设计，像是逐条回应这些具体焦虑写出来的产品规范。

三、数字背后的故事：97%意味着什么

发布博客里，Anthropic引用了4家早期合作伙伴的数据。这些数字值得仔细分析。

Rakuten的案例最具代表性。

这家日本电商巨头使用任务型长周期Agent。开启记忆功能后，他们在官方引述中报告的数字是：首次处理错误减少97%，Agent运行成本下降27%，延迟降低34%。

97%的错误减少，这不是性能调优，这是行为的根本性改变。

传统的质量改进循环是：AI给出错误输出 → 人工发现问题 → 分析根本原因 → 修改代码或Prompt → 重新测试 → 部署更新。这个循环短则数天，长则数周，而且依赖人工在每个环节的介入。

记忆系统创造了一个新的循环：AI给出错误输出 → 人工在会话中给出纠正 → Agent把这次纠正作为记忆存储下来 → 下次会话，错误不再发生。人工的介入从「离线的系统更新」变成了「在线的实时反馈」，效果反而更快、更精准。

成本和延迟的下降是自然的派生结果：Agent不需要每次重新推理已经有明确答案的问题。这些答案，已经存在记忆文件里了。每减少一次冗余推理，就是节省了时间和算力。

Rakuten的AI负责人Yusuke Kaji的引述说出了这背后的逻辑：「用户不再需要反复纠正系统已经学会如何避免的错误，而且记忆范围在工作区内是可观测的，学习过程始终在我们的控制之下。」

这两点同等重要：学习效果，和学习的可控性。

Netflix的案例揭示的是另一个层面。

他们的报告集中在一个具体场景：Agent现在能在会话之间携带上下文，「包括需要多轮对话才能发现的洞见，以及人工在对话中途给出的纠正」。

「多轮对话才能发现的洞见」——这句话值得细嚼。有些知识只有在足够多的交互之后才能形成模式认知。比如某类内容的特定受众偏好，比如某个工作流的隐性约束，比如某个业务逻辑的历史沿革。

这类洞见无法被写进静态Prompt，因为它们往往在系统设计时并不明确，只有在使用过程中逐渐浮现。没有记忆系统，每次会话重置就意味着这些已浮现的洞见被清空，下次还要花同样的对话轮数重新发现。

记忆系统让这类知识积累成为可能。不是靠工程师手动整理文档，而是在自然的使用过程中自动沉淀。

Wisedocs的案例最纯粹。

文档验证是典型的高重复性场景：同类文件有共同的格式约定，有反复出现的错误模式，有特定文档来源的特定注意事项。有了跨会话记忆，Agent不需要每次对着一份新文档「重学」这份文档类型的规则。验证速度提升30%，是从「无记忆的重复劳动」到「有记忆的模式识别」的直接转换。

Ando的选择最说明问题。

这家为工作场景构建对话平台的创业公司，在使用Managed Agents Memory之后，做了一个决定：停止自建记忆基础设施。创始人Sara Du的原话是：「一个好的记忆API解决了很多基础设施的头疼问题，尤其是在跨Agent和跨会话构建时。我们可以停止建设记忆基础设施，专注于产品本身。」

这是这4个案例中最直接的商业逻辑：把非核心的、通用的基础设施外包出去，把工程资源集中在真正创造差异化价值的地方。

四、无状态时代为什么失败

要理解这次更新的战略意义，需要回到一个被反复讨论但从未真正被技术层面解决的问题：为什么企业AI部署的成功率这么低？

行业分析师和企业CIO的调查数据反复指向同一个结论：大多数企业AI项目（尤其是Agent相关项目）难以从试点阶段规模化到生产部署。据第三方机构的多份企业AI调查（来源：McKinsey Global Institute、Gartner 2025-2026），「AI系统无法持续适应业务上下文变化」是反复出现的失败原因之一。导致这些失败的技术根因，有一个被系统性低估了：无状态AI无法在企业环境中有效积累组织知识。

企业工作的本质是积累性的。一个组织的价值，很大程度上来自于它积累的经验：成功过的方案、失败过的路径、特定场景下的最优做法、每个团队的工作偏好和规范。这些经验以多种形式存在：文档、流程、人员的头脑里，以及日积月累的「我们这里就是这么做的」的默认知识。

一个无状态的AI Agent，无法学习这些积累性知识。它可以每次读取文档，但不能从实际工作中形成经验。它可以被告知规则，但不能从观察中理解规则背后的原因和边界。它可以完成当次任务，但不会因为做了更多任务而变得更好。

这种无法积累的特性，让AI Agent在企业场景中的体验更像是一个「反复入职的新人」——每次开会都要重新介绍背景，每次犯错都要重新解释为什么这样不行，每次合作都从零开始建立信任和默契。

有状态AI（Stateful AI）的概念在2024年就开始被广泛讨论。但从概念到可在生产环境部署的企业级产品，中间有一条工程鸿沟：如何保证记忆的可靠性？如何防止记忆污染？如何在多租户环境下隔离不同用户的记忆？如何让记忆系统符合企业的合规和安全要求？

这些不是算法问题，是系统工程问题。Anthropic这次的实现，是目前市场上已知的最接近完整答案的一个。不是因为技术革命性，而是因为它把企业真正需要的每一个细节都想到了，并且给出了可操作的解决方案。

五、两个对立的视角

但任何宣称有大幅改进的产品发布，都值得认真审视乐观和怀疑两个方向的声音。

乐观的叙事：

记忆系统是AI Agent从「可用」到「好用」的关键跨越。过去两年，企业部署AI Agent面临的最大挑战之一就是「维护成本高」——这包括持续的Prompt工程、定期的评估和调整、当AI行为退化时的诊断和修复。这些工作的存在，根本原因是AI没有从使用过程中自主学习和改进。

记忆系统让Agent有了自主学习路径。Rakuten的97%错误减少，如果能在更广泛的企业场景中复现，意味着AI Agent的维护成本可以大幅降低，ROI会出现质的改变。这是把AI Agent从「需要持续人工看管的工具」变成「能够自我管理的协作者」的第一步。

更大的战略意义是组织知识的数字化。企业最有价值的知识，往往是难以言说的隐性知识（tacit knowledge）：为什么这个方案在我们这里会失败，那个供应商的真实交货周期是多少，某个客户偏好什么样的沟通方式。这类知识存在于有经验的员工脑子里，极难文档化，随人员流动大量流失。有了记忆系统，Agent可以在日常工作中自动沉淀这类知识——不是替代员工，而是把原本只存在于人脑中的组织记忆，以可追溯、可分享、不会因为人员变动而消失的方式保存下来。

怀疑的声音：

第一，这些数据来自早期公测合作伙伴，存在明显的选择性偏差。愿意在产品发布博客里公开分享数据的早期用户，几乎肯定是在这个功能上获得了最好结果的那批人。真正有代表性的数据，需要来自更多样本，在更多场景下的观察。

第二，记忆系统引入了全新的风险面。记忆污染是一个真实威胁：如果Agent在某次会话中形成了一个错误的「认知」，并把它存入了记忆，这个错误会被后续所有会话继承，直到有人发现并手动清除。随着记忆积累，这种潜在的「知识错误」的传播路径会变得更复杂。

第三，多Agent共享记忆的设计在理论上很吸引人，但实际场景下的边界管理是个难题。一个Agent的「学习」，不一定对所有使用同一记忆存储的Agent都是正确的先验知识。A Agent针对客户甲优化的策略，可能对B Agent面对客户乙反而产生干扰。如何设计记忆的作用域和隔离机制，是复杂的系统设计问题，在真实大规模部署中才会完全暴露。

第四，「Agent学到了什么」的可解释性仍然有限。审计日志告诉你「这次会话之后记忆文件有了变化」，但不能告诉你「这个变化是否正确，以及它会如何影响未来的输出」。可观测性（observability）和可解释性（explainability）之间，还有相当的距离。

六、竞争版图的微妙重构

Claude Managed Agents Memory的发布，发生在AI基础设施竞争格局正在加速成形的时刻。

OpenAI的Stateful Runtime Environment（与Amazon合作）在2026年2月27日宣布，通过Amazon Bedrock向企业提供有状态计算能力。但这个方案的定位更偏向底层平台，不是专为Agent记忆场景优化的系统，也没有Anthropic这次发布中展示的那种细粒度企业级权限和审计功能。

Google在Gemini Enterprise Agent Platform上有类似的记忆功能路线图，根据2026年4月的产品发布，Google宣布了Agent工作流状态管理功能的路线图，但具体的跨会话持久记忆功能尚未进入公测。Google DeepMind内部在追赶Claude编码能力的同时，企业Agent基础设施层面的步调相对保守。

Microsoft的GitHub Copilot在开发工作流中有会话记忆，但这是面向代码场景的窄域记忆，不是通用的企业Agent记忆层。

时间节点的设计值得注意。Claude Opus 4.7在4月16日发布，官方发布说明里明确提到「Opus 4.7在使用文件系统记忆方面更好，能在长周期、多会话工作中记住重要内容，并利用这些内容推进需要更少前置上下文的新任务」。一周之后，记忆功能进入公测。更强的模型能力，配合更完善的记忆基础设施——这是有意为之的产品协同，不是巧合。

从竞争战略角度看，Anthropic正在把Claude Managed Agents定位为企业AI的「运行层」——不只是模型服务，也不只是应用平台，而是能在任何企业工作流中自主运行、持续学习、不断改进的Agent基础设施。这个定位如果成立，Managed Agents的竞争对手就不再是GPT-4o或Gemini，而是企业自建的Agent框架，以及LangChain、CrewAI、AutoGen这类开源Agent编排项目。

对于企业决策者来说，这是一个值得认真评估的选择：用供应商提供的有记忆、可管理、有审计链的托管Agent基础设施，还是自己搭建更灵活但也更复杂的定制系统？Ando的决定——停止自建，采用托管——是一种回答。但这个回答是否适用于所有规模、所有行业的企业，还有待更多真实案例验证。

七、那个没被直接说出来的问题

有一个关于记忆系统的问题，Anthropic的博客没有直接回答，媒体报道也几乎没有触及，但它对未来几年的企业AI格局至关重要：

当AI Agent积累了足够多的组织记忆，这些记忆属于谁，又对谁有价值？

表面上，Anthropic的答案已经给了：记忆文件存储在企业的工作区，企业有完整控制权，可以导出、管理、删除。这是数据所有权层面的回答，清晰而且合理。

但还有更深的一层。Rakuten的Agent记住了在哪些情况下应该采用哪种处理策略，避免哪类错误。Netflix的Agent记住了内容团队偏好的分析框架和表达方式。Wisedocs的Agent记住了特定文档来源的质量规律。

这些记忆，不只是数据文件，它们是经过实际工作验证的、针对特定组织的专业判断的结晶。这类知识，如果存在于一个有经验的员工脑子里，会被认为是这名员工的核心竞争力和市场价值的一部分。

当它转移到Agent的记忆文件里，这个「专业判断」的价值归属就变得模糊了。它不再是某个具体员工的资产，但也不完全是组织的资产，因为它的形成依赖于基础模型的学习机制和记忆系统的架构设计——而这些，是Anthropic提供的。

举一个具体的假设场景：Rakuten的某位资深运营专员，在与Agent交互的过程中，多次纠正Agent的判断，这些纠正被存入了记忆。12个月后，这位专员离职了。但她的判断框架，已经以某种形式固化在了Agent的记忆文件里，继续指导着后续的工作。这是「知识留存」的成功，还是「专业价值被无意中外部化」的另一种叙事？如果这位专员知道自己的判断会被这样存储和使用，她的劳动合同条款是否应该有所调整？

Rakuten描述的那97%的错误减少，背后有多少是从员工那里学来的专业判断？这些判断现在存在Agent的记忆文件里，下一次这个有经验的员工离职，组织还需要担心这部分知识流失吗？

这个问题，Wisedocs和Ando的数据回答不了。它需要更多时间，和对这个技术范式更诚实的长期观察。

结语：当机器开始记得昨天

Claude Managed Agents Memory公测发布，不只是一个功能里程碑。它是有状态企业AI真正进入可部署阶段的确认信号。

企业AI下一阶段的核心问题不再是「模型能力够不够」——在大多数企业场景下，当前主流模型的能力已经足够完成任务。真正的瓶颈是「Agent能不能真正融入组织」。融入需要的是：理解上下文，记住经验，随组织的节奏和需求持续演化。

记忆，是这一切的前提。

在4月23日之前，Claude Managed Agents的工作方式是：每次会话都是第一天，什么都不记得，什么都要重新学。

从4月23日开始，某些Agent开始记得昨天了。

这是一个小小的、几乎被忽略的开始。但AI和企业组织之间最重要的关系转变，也许就从这里开始。

参考资料

Anthropic官方博客：Built-in memory for Claude Managed Agents，2026年4月23日，https://claude.com/blog/claude-managed-agents-memory
Anthropic官方：Claude Managed Agents产品介绍，https://claude.com/blog/claude-managed-agents
Anthropic发布说明：Claude Opus 4.7文件系统记忆能力说明，https://www.anthropic.com/news/claude-opus-4-7
麦肯锡全球研究院：企业AI部署现状分析（2025-2026），McKinsey Global Institute
Rakuten Yusuke Kaji的公开引述，来源：Anthropic官方博客
Ando创始人Sara Du的公开引述，来源：Anthropic官方博客

记忆，AI Agent最后的拼图：Claude Managed Agents Memory公测，让「学会」的机器开始真正工作

一、每次会话都是第一天

二、文件系统，一个出人意料的选择

三、数字背后的故事：97%意味着什么

四、无状态时代为什么失败

五、两个对立的视角

六、竞争版图的微妙重构

七、那个没被直接说出来的问题

结语：当机器开始记得昨天

Tags:

About

Categories

Recent Posts

Resources