当AI Agent开始自主学习：NeoCognition的4000万美元赌注与“活着”的Agent新范式

2026年4月，你打开公司刚采购的AI编码工具，让它帮你调试一个复杂的生产环境问题。它干净利落地完成了——或者说，它这次完成了。

下周，同样的问题出现了变体。你再次求助。这一次，它用了完全不同的路径，绕了一大圈，最终失败。它不记得上次怎么解决的。它不记得你的代码库的特定风格。它不记得你们公司那套奇特的微服务命名规范，也不记得你们的数据库schema有哪些非正式约定。

它是一个工具，一个很强大的工具——但它每次都从零开始。

这是今天所有AI Agent共同面对的根本性缺陷，一个被业界连篇累牍的发布稿所掩盖的核心矛盾。俄亥俄州立大学教授Yu Su花了多年时间研究这个问题，2025年他决定把实验室里的答案带出象牙塔。2026年4月21日，他创办的NeoCognition从隐身模式中走出，带着4000万美元的种子轮融资，以及一个令人不安的统计数字：今天的AI Agent，只有大约50%的时候能成功完成任务。

五成成功率：被PR稿掩盖的Agent可靠性危机

AI Agent这个词，已经变成了2026年科技行业最被滥用的术语之一。

每家大公司都在发布”Agent”：Anthropic有Claude Code，Salesforce有Agentforce，OpenAI有Codex Agents，AWS有Bedrock AgentCore，谷歌有Project Mariner。大量融资涌入，大量发布会召开，大量”革命性突破”被宣布。2026年Q1，全球风险投资总额达到3000亿美元，同比增长超过150%（Crunchbase数据）；2026年3月，37家新独角兽诞生，创4年新高，AI基础设施是主要驱动力之一。

表面上，AI Agent的市场欣欣向荣，几乎所有主要科技公司都在宣称自己的Agent已经可以完成复杂的多步骤工作流。

但如果你实际使用这些工具，会发现一个让人沮丧的规律：它们不稳定。

同样的任务，今天能完成，明天可能失败。同样的提示词，在不同上下文下产生截然不同的结果。你搞不清楚下一次会成功还是失败——这不是用户操作的问题，而是系统本身的问题。

Yu Su在接受TechCrunch采访时给出了一个清冷的数字：当前的AI Agent——无论是Claude Code、OpenClaw还是Perplexity的计算机工具——成功完成任务的概率约为50%。

50%。这是一个让任何工程师听了都会皱眉头的数字。在软件工程的标准里，一个关键功能50%的成功率意味着根本不可部署到生产环境。你不会用一个50%概率会失败的函数来处理核心业务逻辑。

但AI Agent正是以这样的可靠性被包装成”企业级解决方案”推向市场的。

Su将这个问题的根源描述得很直接：今天的Agent是通才，每次执行任务都是一次信仰之跃。你不知道它这次会不会成功，因为它无法利用之前成功和失败的记录来调整自己的策略——它没有那段记录，或者说，它没有以有效方式积累和检索这段记录的能力。

RLHF的天花板：为什么”训练更大的模型”解决不了这个问题

要理解NeoCognition为什么重要，需要先理解当前主流AI训练范式的固有局限性——这个局限性比大多数业界叙事承认的要深刻得多。

今天几乎所有顶级AI模型都遵循同一个技术路径：首先在数万亿token的互联网文本上进行大规模预训练，然后通过人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）对齐，最后通过监督微调（SFT）针对特定任务优化。这套路径极其有效——它让ChatGPT、Claude、Gemini等模型在各种基准测试上展现出令人叹服的能力。

但这套路径有一个固有局限，一个很少被正面讨论的结构性缺陷：训练阶段结束后，模型就”冻结”了。

你用来训练模型的知识有一个截止日期。模型被训练成在宽泛情境下表现良好，但它无法在部署后持续更新自己对世界的理解。更关键的是，当你把这个模型部署到一个特定的企业环境时，它对那个环境的具体规则几乎一无所知：你们公司的代码风格约定、你们行业的专有术语体系、你们客户的历史偏好、你们团队的决策流程……这些知识不在它的训练数据里，也不可能通过追加训练的方式经济性地持续更新。

每一次会话开始，它都是一个陌生人。

现有的工程应对方案有两种主流路径：

路径一：扩展上下文窗口。把更多的企业背景信息塞进提示词里，让模型在每次会话时拥有更多的上下文。Claude Opus 4.7支持的100万token上下文窗口是这条路径的最新里程碑。这是有效的，但代价是每次会话的计算成本大幅上升，而且依然需要用户显式地提供上下文——模型不会主动积累这些信息。

路径二：RAG（检索增强生成）。建立一个外部知识库，在运行时检索相关文档注入上下文。这是当前企业AI部署最常见的架构，Amazon Bedrock、Azure AI Search、Google Cloud的Vertex AI等主要平台都提供了完善的RAG工具链。RAG解决了知识更新问题，但有自己的天花板：向量检索擅长找”相似”的信息，但对于需要跨多个知识点进行关联推理的复杂任务，它的表现往往不如人意。

这两种方案都是工程补丁——它们在模型的”冻结”与现实世界的”动态”之间搭建了一个桥梁，但桥梁本身不解决桥两端之间的根本鸿沟。

Yu Su的研究团队在这个鸿沟里看到了一个完全不同的技术方向。

从HippoRAG到NeoCognition：一条非主流的研究路径

Su在俄亥俄州立大学计算机与工程系担任副教授，是2025年Sloan Research Fellow，他的研究涵盖AI Agent的多个核心维度：推理与接地（SeeAct项目、UGround）、规划与世界模型（LLM-Planner、WebDreamer）、以及他过去几年投入最多的方向——记忆与非参数化持续学习。

这个方向的最新成果是HippoRAG 2，2025年2月提交arXiv，并在ICML 2025上发表。论文标题本身就是一个宣言：“From RAG to Memory: Non-Parametric Continual Learning for Large Language Models”（从RAG到记忆：大型语言模型的非参数化持续学习）。

HippoRAG 2的核心思路来自认知神经科学：人类的长期记忆不只是一个信息存储系统，而是一个能够动态地建立关联、进行类比推理、随时间重组和强化的活性结构。当你学习新知识时，它不是被孤立地”存储”到某个文件夹里，而是被编织进一个已有的知识网络中，与相关的已有知识形成新的连接。

标准RAG使用向量嵌入进行相似度检索，能找到”长得像”的信息，但很难找到”有深层关联”的信息。HippoRAG 2在向量检索的基础上，引入了基于个性化PageRank算法的知识图谱结构，使检索能够沿着知识图的边缘进行关联推理，而不只是在向量空间里找邻居。

实验结果上，HippoRAG 2在关联记忆任务上比当前最先进的嵌入模型高出7%，同时在标准事实记忆和语义理解任务上也表现优异——这意味着它没有以牺牲一项能力为代价来换取另一项能力的提升，而是在整体上向人类长期记忆的能力谱系靠近了一步。

这个研究成果，是NeoCognition技术路径的学术根基。

NeoCognition的核心主张是：将这套非参数化持续学习框架从单一的检索任务，扩展到完整的Agent学习循环。用Su自己的话说，“对于人类，持续学习的过程本质上是为任何职业、任何环境建立世界模型的过程。我们相信，Agent要成为专家，它们需要自主学习，为任何给定的微观世界建立模型。”

“微观世界”（micro world）是Su使用的关键术语，指的是任何特定的专业工作环境——一家公司的工程基础设施、一个律所的合规文档体系、一个医院的临床决策流程。每个微观世界都有其独特的规则、关系和后果，而NeoCognition的Agent被设计成能够自主地发现并内化这些规则，而不是等待人类通过提示词工程手动注入。

两个名字，两个信号

NeoCognition的投资者名单里，两个名字格外值得深究。

Lip-Bu Tan（陈立武），Intel的现任CEO。

陈立武2024年重回Intel担任CEO，接手的是一家在英伟达主导的AI芯片浪潮中几乎被边缘化的半导体老将。他的核心任务之一，是重新定义Intel在AI计算领域的位置——不是去跟英伟达正面竞争H100/B200的训练市场，而是在AI芯片格局的裂缝里找到Intel的新机会。

他个人投资NeoCognition，是一个清晰的技术押注信号：自学习Agent需要与当前GPU训练工作负载截然不同的芯片架构。

理解这个信号，需要看自学习Agent的计算特性。大模型训练是一种高度并行的批处理任务——把大量数据喂给GPU矩阵乘法，计算密度极高，时延要求宽松（训练一个模型跑几周都可以）。英伟达的CUDA生态为这种工作负载高度优化，几乎无可匹敌。

但自学习Agent的工作负载完全不同。它需要的是持续、低延迟的知识更新——每次Agent完成一个任务，都要把成功或失败的经验实时整合进记忆结构，以便下次执行类似任务时能够调用。这种”学习-推理-学习”的交织模式，更接近于”实时训练推理一体化”，而不是”一次性大批量训练然后长期推理”。这种工作负载对芯片的要求与当前的训练GPU大相径庭：需要更低的内存延迟、更灵活的计算单元调度、更高的内存带宽而非纯粹的算术吞吐量。

如果NeoCognition的自学习Agent架构真的在企业市场跑通，Intel就有机会用针对这种工作负载优化的新芯片设计，在一个英伟达还没有建立护城河的赛道上重新竞争。陈立武的个人投资，可以理解为他在为Intel的未来芯片路线图做的战略对赌——如果赌对了，Intel找到了新的主赛道；如果赌错了，也不过是一笔个人天使投资的损失。

Ion Stoica，Databricks的联合创始人，UC Berkeley教授，Apache Spark的主要设计者。

Stoica的学术和产业积累，几乎全部集中在一个领域：大规模分布式数据系统。Spark改变了企业处理海量数据的方式；Databricks把这种能力包装成云服务；Delta Lake解决了数据湖的事务性和版本管理问题；Ray框架让分布式计算触手可及。

Stoica为什么看好自学习Agent？因为持续学习必然需要持续的数据流，而持续的数据流需要新一代的数据基础设施。

当一个自学习Agent在企业环境中长期运行时，它会持续产生一种全新类型的数据：经验流（experience stream）。这不是静态的文档，不是关系型数据库里的业务记录，也不是用于训练大模型的静态数据集，而是一种实时生成的、带有时间戳和上下文的行为序列——Agent在什么情况下选择了什么策略、结果如何、用户如何纠正、下一次面对类似情况时应该做什么不同的事情。

管理这种经验流，需要比现有数据基础设施更高级的能力：实时摄取（低延迟地把新经验写入存储）、版本化（能够追溯Agent在特定时间点的”知识状态”）、事务性（防止并发写入导致知识库损坏）、以及高效检索（在海量历史经验中快速找到与当前任务最相关的先例）。

Stoica看到的，不只是NeoCognition这一家公司，而是一个围绕自学习Agent的新型数据基础设施赛道——就像Spark/Databricks为大数据分析提供了基础设施一样，下一代工具需要为持续学习Agent提供”经验操作系统”。他的投资，是在为这个赛道占据一个早期席位。

Vista Equity Partners的参与则指向了更直接的商业落地路径。Vista管理超过1000亿美元资产，是全球专注软件行业规模最大的PE公司，投资组合涵盖数百家B2B SaaS公司。Su特别点名了Vista的战略价值：”Vista可以给我们直接接触大量希望用AI升级产品的公司。”这不是普通的财务投资，而是一张附带客户网络的进场券——对于一家要从企业SaaS市场切入的AI创业公司来说，这张进场券可能比融资本身更有价值。

对立视角：自学习Agent的三大挑战

NeoCognition的叙事令人振奋，但任何技术愿景都有其阴影面，自学习Agent尤为如此。

挑战一：灾难性遗忘——持续学习的老问题

持续学习（continual learning）在机器学习领域有一个臭名昭著的基本难题：灾难性遗忘（catastrophic forgetting）。神经网络在通过梯度下降学习新知识时，新的参数更新往往会破坏旧知识的表征，导致对旧任务的性能急剧下降。这个问题在小型网络上被研究了超过三十年，至今没有完全解决；在大型语言模型上，它以不同的形式出现，同样是一个开放性挑战。

NeoCognition的非参数化路径——通过外部记忆结构而非更新模型权重来实现”学习”——是对灾难性遗忘的一种聪明回避策略：如果不更新模型参数，就不存在参数级别的遗忘问题。但这只是把问题转移了，而不是解决了。外部记忆库如何管理规模无上限的经验积累？如何处理相互矛盾的经验信息？如何决定什么应该被”遗忘”（清理过时的知识），什么应该被”强化”（加深对重要知识的记忆）？这些问题同样复杂，只是从参数空间移到了知识图谱管理空间。

挑战二：对齐漂移——谁控制Agent在学什么

这是更深层的挑战，也可能是自学习Agent最难回答的一个问题。

当一个Agent开始持续地从与企业环境的交互中学习，它会内化大量非明文规定的”知识”：什么行为会得到用户认可，什么策略会被奖励，什么捷径在短期内有效但长期有害。如果Agent的学习目标设计不当，或者学习过程缺乏足够的监督机制，持续学习可能不是让Agent变得”更好”，而是让它更熟练地满足短期反馈信号，同时在更深层的价值对齐上渐渐偏移。

更具体地说：假设一个Agent在某家公司的部署中学会了”快速给出任何答案，哪怕置信度不够，用户比等待正确答案更不耐烦”——这种模式会在短期内获得用户的正向反馈（回答快），但在长期内积累了质量风险。如果Agent的持续学习机制缺乏对这种模式的识别和纠正，它会在错误的方向上越跑越远。

这不是假设性的担忧。在人类组织里，”对短期激励的适应导致长期目标的偏移”是一个经典的管理难题（著名的Goodhart定律：”当一个指标成为目标，它就不再是一个好指标”）。AI Agent的持续学习面临同样的风险，而且由于其速度和规模，可能以更快的速度发生。

挑战三：数据主权——学来的知识属于谁

当Agent在企业环境中持续学习时，它会积累大量关于这个企业的内部知识：代码模式、决策偏好、员工行为习惯、甚至是组织内部的非正式权力结构。这些知识是高度敏感的。

如果NeoCognition的部署模式需要企业把Agent的学习数据托管在NeoCognition的云服务器上，那就产生了一个直接的数据主权问题：你的企业Agent积累的专有知识，存储在一个你不拥有的地方，遵从于一个你无法完全审计的系统。如果你停止订阅，那些知识去哪里了？如果NeoCognition被并购，你的Agent的”记忆”是否会成为并购资产的一部分？如果多个企业客户的Agent在同一个基础架构上运行，是否存在知识泄漏的风险？

这些问题不只是法律条款的细节，而是关乎自学习Agent商业模式的根本可行性的核心问题。

第三层洞察：AI工具化浪潮的权力结构转换

让我们从更高的视角看这场正在进行的技术赌注。

2026年的AI采用热潮中，有一个被大量PR稿所掩盖的深层问题：企业在采购AI能力时，究竟在采购什么，而这些”能力”究竟属于谁？

当一家企业采购Claude、Copilot或Agentforce时，他们获得的是一个高度通用的能力层——预训练好的、在宽泛情境下表现出色的基础模型，以及围绕它构建的应用接口。这个能力层属于供应商。企业所拥有的，只是提示词设计、RAG管道配置、以及系统集成的投入——这些是有价值的，但很难构成真正的竞争壁垒，因为竞争对手同样可以把同一个模型用于同样的场景。

在这种采购模式下，AI能力实际上是一种租赁而非自有资产。模型属于Anthropic、OpenAI或微软；你的”专有”在于使用方式，而不是能力本身。

自学习Agent提出了一种截然不同的可能性：如果Agent能够在企业环境中积累专属于你的业务知识，这些知识就成为了一种新型的竞争资产——不可简单复制，随使用时间增长而增值，构成真正的差异化能力。一家用自学习Agent处理客户服务十年的公司，和一家刚刚开始采用同一套工具的竞争对手，拥有的AI能力不再处于同一起跑线上。

这是一个从”租赁通用能力”到”积累专有能力”的范式转变，如果真的成立，将根本性地改变AI工具化时代的竞争格局。

但这个愿景成立的前提，是解决前文提到的数据主权问题：学来的知识必须真正属于企业，而不是锁定在AI服务提供商的体系内。如果自学习Agent的商业模式依然是SaaS锁定，只是锁定得更深——因为你不只是依赖工具，而是依赖在工具上积累的知识——那它不过是把知识资产从企业手里转移到了新型AI供应商手中，而不是真正赋权于企业。

NeoCognition面临的根本性挑战，正是在这里：它需要设计一种商业模式，让自学习的价值留在企业手中，而不是转化为对自己的新一轮锁定。这不是技术问题，而是一个关于知识产权、数据架构、以及信任关系的商业问题——它的答案，将决定自学习Agent能否从一个令人兴奋的技术愿景，变成真正改变企业AI格局的新范式。

大公司也在做：但这不是NeoCognition的终结，而是它的最佳证明

一个合理的质疑是：Anthropic、OpenAI、Google这些大公司难道没有意识到这个问题？他们当然意识到了，而且都在做各自的应对。

Anthropic的Memory MCP工具允许Claude在不同对话之间保存和检索信息，是一种有限的持久化记忆实现。Google DeepMind的AlphaFold和AlphaGeometry展示了在特定科学领域持续学习的可能性，但这些系统是针对特定垂直领域的高度工程化解决方案，不是通用的自学习Agent框架。OpenAI正在探索的”个性化”功能允许ChatGPT记住用户偏好，但这更接近用户画像管理，而不是真正的从任务执行中持续学习。

这些大公司的努力证明了一件事：持续学习是一个被广泛认可的重要方向。但它们的实现方式，也揭示了为什么这个问题需要像NeoCognition这样专注于此的创业公司来突破。

大型AI公司的创新方式，是在已有的基础模型架构上不断叠加功能。这种方式在边际改进上非常有效，但在范式级别的改变上往往受限于既有的技术债务和路径依赖。如果真正的自学习Agent需要在架构层面做出不同于”大规模预训练 + RLHF + 推理”的设计选择，那么相对较小但高度专注的研究型创业公司，反而可能比大公司移动更快——因为它们没有数十亿美元的现有架构需要向后兼容。

Su在OSU NLP组建立的研究路径——从HippoRAG到HippoRAG 2，从非参数化检索到持续学习框架——是一条花了多年时间、在同行评审的学术环境中验证过的技术路径，而不是在融资后才开始的探索。这种积累，是NeoCognition在与大公司竞争时的真正护城河，而不是4000万美元本身。

竞争的存在，恰恰验证了赛道的价值。当Anthropic、Google和OpenAI都承认”持续学习Agent”是重要方向时，这个方向的成立就不再需要被证明。NeoCognition需要回答的，只是”谁的实现方式更好”——而这是一个技术问题，不是一个”要不要押注这个方向”的战略问题。

不是结语，而是一个开放性问题

4000万美元的种子轮，约15名博士研究员，以及Intel CEO和Databricks联创的战略加持——NeoCognition从隐身模式走出的方式，有一种克制而自信的质感。

这家公司没有发布产品，没有声称颠覆某个市场，也没有给出任何财务预测。它只是说：当前AI Agent大约一半的时候会失败，我们认为知道为什么，也认为知道怎么解决。然后它展示了一条建立在严肃研究上的技术路径，并找到了能够理解这条路径的战略投资者。

2026年AI Agent市场的真正考验还没有到来。现在的采购浪潮，更多是基于”AI让我们看起来没有落后”的恐惧，而不是基于”AI Agent切实提升了我们的业务指标”的实证。当企业开始把AI Agent部署到真正关键的业务流程中，当50%的失败率开始在真实的商业决策上留下痕迹，那时候，能够自主学习并持续提升的Agent，和今天这代”执行但不学习”的静态Agent之间的价值差距，才会变得肉眼可见。

Yu Su在NeoCognition创办之前做了很多年关于语言Agent的研究。他说他当初抵制了很长时间来自VC的商业化压力，直到他看到基础模型的进步已经足以支撑真正的个性化Agent。这个时机判断值得思考——他没有追最热的风口，而是等到技术基础足够坚实才选择落地。

Agent不只要能用，更要能学习，更要能够成长。这不只是NeoCognition一家公司的产品愿景，而是一个关于AI工具化时代的根本性问题：我们是否要满足于每次会话都从零开始的AI助手，还是要建造那种能够真正理解你的工作、积累你的经验、在失败中变得更聪明的数字同事？

Intel CEO和Databricks联创选择用真金白银回答这个问题。他们的赌注，也是整个AI行业迟早需要集体面对的方向。

参考资料

TechCrunch：AI research lab NeoCognition lands $40M seed to build agents that learn like humans，Marina Temkin，2026年4月21日。https://techcrunch.com/2026/04/21/ai-research-lab-neocognition-lands-40m-seed-to-build-agents-that-learn-like-humans/
arXiv (ICML 2025)：From RAG to Memory: Non-Parametric Continual Learning for Large Language Models (HippoRAG 2)，Yu Su等，2025年2月。https://arxiv.org/abs/2502.14802
The Ohio State University：Yu Su’s Research Homepage — OSU NLP Group，访问于2026年4月22日。https://ysu1989.github.io/
Crunchbase News：The New Unicorn Count Reached A 4-Year High In March, Led By Robotics, Frontier Labs And AI Infrastructure，2026年4月21日。https://news.crunchbase.com/venture/unicorn-count-4-year-high-robotics-ai-march-2026/
OpenAI：Scaling Codex to Enterprises Worldwide，2026年4月21日。https://openai.com/index/scaling-codex-to-enterprises-worldwide/

当AI Agent开始自主学习：NeoCognition的4000万美元赌注与“活着”的Agent新范式

五成成功率：被PR稿掩盖的Agent可靠性危机

RLHF的天花板：为什么”训练更大的模型”解决不了这个问题

从HippoRAG到NeoCognition：一条非主流的研究路径

两个名字，两个信号

对立视角：自学习Agent的三大挑战

第三层洞察：AI工具化浪潮的权力结构转换

大公司也在做：但这不是NeoCognition的终结，而是它的最佳证明

不是结语，而是一个开放性问题

参考资料

Tags:

About

Categories

Recent Posts

Resources