当推理模型掌门人出走创业:「持续学习」是否是下一代人工智能的破局方向
杰瑞·图瑞克在 OpenAI 的最后一天,大概没有想到自己的离开会成为一个时代的注脚。
作为推理模型团队的负责人,图瑞克直接参与并主导了一系列「会思考」的模型的研发——他带领团队开发的思维链推理技术使得模型能够在生成答案之前进行多步显式推理,这些模型在数学竞赛、代码生成和科学推理等需要复杂逻辑能力的任务上实现了质的飞跃。在他的技术领导下,推理模型的准确率在特定基准测试上提升了超过百分之三十。二零二六年三月,三十六氪率先报道了他离职创业的消息:新公司名为 Core Automation,目标是打造「能持续学习」的人工智能系统,计划融资五亿至十亿美元(来源: 36Kr, 2026-03-21)。
五亿到十亿美元的融资目标——放在任何一个行业都是天文数字,但在今年的智能技术赛道,这个数字传递的战略信号比金额本身更重要:推理模型的核心架构师认为,当前的大模型范式存在根本性缺陷,值得押上整个职业生涯和数亿美元去打造一个全新的替代方案。
「持续学习」为什么是一个具有范式意义的大问题
要理解这家新公司的野心所在,需要先理解当前所有大模型都共享的一个关键结构性限制:训练和推理的完全割裂。
今天的大语言模型——无论品牌如何——都遵循一个相同的基本范式:先在海量数据上进行预训练(这个过程可能花费数亿美元和数月时间),然后「冻结」模型的全部参数,以固定不变的能力对外提供服务。模型在训练完成后就不再学习任何新东西。它可以通过检索增强机制获取最新信息,但这本质上不是「学习」——就像一个人可以查字典,但查字典并不等于学会了一门新语言。字典告诉你一个词的意思,但不会改变你理解语言的方式。
这个范式在消费级应用中表现良好——对话机器人不需要记住你上周的每次对话,它只需要在每次新对话中足够聪明就行。但在企业和自主智能体场景中,这个限制越来越成为核心瓶颈。一个企业级智能体如果不能从过去的交互中持续学习——记住哪个客户偏好什么服务方式、哪种审批流程在哪个部门走得更快、哪些异常模式需要提前预警、哪些决策在过去导致了糟糕的结果——它就永远只是一个「很聪明但没有记忆的实习生」,每天都需要从零开始认识同一个公司。
这正是企业支出平台数据显示超过一半的雇主对以智能技术为名推行的组织变革和人员调整感到「后悔」和「效果不及预期」的深层技术原因之一(来源: Nate’s Newsletter, 2026-03-21)。当前的智能体「擅长完成被清晰定义的单个任务,但做不好一份需要持续判断和经验积累的完整工作」——因为一份真正的「工作」需要不断积累关于组织文化、业务逻辑和人际关系的隐性知识,而积累这些隐性知识在本质上就是一种需要持续学习能力才能实现的认知过程。没有持续学习能力的智能体,只能作为效率增强工具,无法真正胜任需要经验和判断力积累的知识工作岗位。
推理模型背景决定了独特的技术路线
大多数关于「持续学习」的学术研究集中在解决「灾难性遗忘」问题——即模型学了新知识后忘掉旧知识。这是一个重要但范围较窄的技术挑战。但图瑞克的推理模型背景暗示了一个更加宏大的技术野心:不只是让模型记住更多信息,而是让模型在推理过程中动态调整自己的认知结构和推理策略。
当前推理模型的核心创新是「思维链」机制——模型在给出最终答案之前先进行显式的逐步推理,把思考过程展开为可追踪的中间步骤。但这种「思考」仍然是在固定参数上的静态推理,模型不会因为「想通了一个问题」而永久性地变得更擅长解决类似问题。每次遇到类似挑战,它都要从头思考一遍,不会从之前的思考经验中受益。
新公司的「持续学习」可能意味着一种全新的混合架构设计:模型有一个稳定的「核心层」(通过大规模预训练获得的基础参数),加上一个可持续演化的「适应层」(不断从每次交互中学习和更新的参数子集)。推理过程不仅产出最终答案,还产出「这次推理中我学到了什么」的元认知信息,这些信息被反馈到适应层,永久性地改善模型在特定领域的能力。
这不是纯粹的推测性想象。二零二五年下半年,包括谷歌深度思维和脸书人工智能研究院在内的多个顶级研究团队发表了关于「在线微调」和「参数高效持续适应」的系列论文,核心技术思路与上述混合架构的方向高度吻合。但这些研究目前都停留在受控实验环境下的学术探索阶段,实验规模通常限制在数十亿参数以内,离可以在真实生产环境中稳定运行的数千亿参数级商用产品还有很长的工程化距离。这家新公司可能正是瞄准了这个「从论文到产品」的巨大鸿沟——这类鸿沟在技术商业化历史上往往是价值创造最密集、竞争壁垒最高的地带。
五到十亿美元的融资野心意味着什么
在今年的创业融资市场中,五亿美元不算最高数字——开发者工具平台刚拿了四亿美元,估值九十亿;来源: LinkedIn, 2026-03-21——但这家新公司的特殊之处在于:它是一家基础模型公司而非应用层公司。
基础模型的开发成本是指数级的。训练一个前沿大模型需要数万颗高端图形处理器运行数周甚至数月,电力成本以百万美元计量,顶级研究人才的年薪在一百万到三百万美元区间。五到十亿美元的融资目标明确暗示这家公司不是要在现有模型上搭建应用,而是要从底层重新构建一种全新类型的智能系统。
这与同期的创业融资潮形成了鲜明的战略对比。同一周内,多家创业公司获得了融资,但它们几乎都是应用层的定位:专注采购优化的拿了一千三百万美元、服务一线工人的拿了四百万欧元、优化算力利用率的拿了一千九百万美元、提升数据中心能效的拿了六百万美元(来源: The AI World, 2026-03-21)。这些公司的共同特点是:在现有大模型之上构建垂直场景的应用,不挑战底层的技术范式。
新公司的定位完全不同。它要挑战的是大模型最核心的范式假设——「训练一次,推理永远」。如果成功,它不是另一个应用层创业公司,而是下一代智能基础设施的范式定义者。
对立视角:持续学习带来全新的安全噩梦
但并非所有人对「持续学习」方向持乐观态度。安全研究者指出,一个能够持续学习的智能系统带来了当前安全框架完全无法应对的新挑战:
对齐漂移问题:一个参数固定的模型,其行为边界在训练时就确定了,安全团队可以进行充分的红队测试和压力验证。但一个持续学习的模型,其行为会随着每次交互而微妙地演化——今天通过所有安全测试的模型,可能在学习了三个月的企业数据后出现完全意料之外的行为偏差。这使得传统的安全验证方法彻底失效:你不可能对一个持续变化的系统做一次性的安全认证。
隐蔽投毒攻击的威胁升级:在固定模型中,数据投毒只能发生在训练阶段,而且其影响通常是全局性的、相对容易被安全团队通过异常检测发现的。但在持续学习模型中,攻击者可以在推理和交互阶段通过精心设计的对话序列来「教」模型学到错误的知识、有偏见的判断或者危险的行为模式——这种影响可能是局部的、渐进的、在正常使用中难以察觉的,远比训练阶段的大规模投毒攻击更加隐蔽、更加精准、也更加难以防范和修复。一个恶意用户可能只需要几百次精心构造的对话,就能让一个持续学习的客服智能体对特定类型的客户产生系统性的偏见。
审计的不可能性困境:监管机构和企业合规团队需要能够审计智能系统的每一个重要决策的依据和推理过程。但一个持续学习的系统,其每次决策的依据不仅包括原始训练数据中学到的知识,还包括所有历史交互中累积的微调效果和隐性经验——这可能涉及数百万次对话和数十亿次参数微调的复合影响,使得「清晰地解释这个系统为什么做了这个特定决定」在计算复杂度上变得几乎不可能完成。当系统的行为是其全部历史的函数时,可解释性就从一个工程挑战变成了一个数学上的根本性难题。
这些担忧不是杞人忧天。就在同一天,趋势科技与英伟达联合发布了专门针对人工智能基础设施的安全防护方案(来源: Drimble.nl, 2026-03-22)。随着今年超大规模科技厂商的资本开支达到六千四百五十亿美元,智能系统的安全已经从学术课题变成了一个价值数千亿美元的市场刚需。一个「持续学习」的系统,其需要防护的攻击面可能比固定模型大一个数量级——而当前的安全工具和方法论完全没有为这个新挑战做好准备。
结论:我们可能站在范式转换的门槛上
智能技术发展史可以被简化为一系列范式转换:符号推理、统计学习、深度神经网络、大语言模型、推理模型。每一次转换都伴随着旧公司的衰落和新公司的崛起,也伴随着新一波价值创造的浪潮。
「持续学习」方向可能是下一次范式转换的有力候选者——甚至可能是最有力的候选者。但它也可能是一条看起来美好实际上走不通的死胡同——历史上被寄予厚望的范式转换候选者数量远远多于最终真正发生的范式转换。判断这个方向是否真正可行的关键指标不是技术论文的发表数量或融资的金额规模大小,而是企业客户是否愿意为「能学习、能记忆、能适应、能进化」的智能系统支付显著更高的溢价。
如果企业客户通过实际部署验证发现,一个能够持续记住并学习其独特业务上下文的智能体,其长期创造的商业价值远远超过一个只能「查字典」但永远不会积累经验的通用模型——那么持续学习就不只是一个美好的技术理想主义愿景,而是一个有明确且巨大的商业需求支撑的真实市场机会。
推理模型的核心架构师离开了打造推理模型的公司,去追求「永不停止学习的智能系统」。这个职业选择本身就是最有说服力的市场信号:在最了解当前范式天花板的人看来,那个天花板已经近在咫尺了。而天花板之上的空间,值得一次十亿美元级别的豪赌。
如果「持续学习」方向最终被验证可行,它的影响将远超一家创业公司的成败。它意味着人工智能系统将从「静态工具」进化为「动态伙伴」——不是你每次告诉它怎么做,而是它从与你的每次互动中自主学习、持续进化、越来越懂你的需求和偏好。这是一个与当前范式本质不同的未来图景,也是让核心架构师愿意放弃顶级研究实验室的舒适位置、投入创业风险的根本原因。在他看来,这个方向不是「可能有趣」,而是「必须尝试」。
参考资料
- Core Automation: OpenAI 推理模型负责人创业 — 36Kr, 2026-03-21
- 55% of Employers Regret AI-Driven Layoffs — Nate’s Newsletter / Substack, 2026-03-21
- Replit Raises $400M at $9B Valuation — LinkedIn, 2026-03-21
- AI Startup Funding Cluster: Aerchain, Bounti, Hosted.ai, PADO AI — The AI World, 2026-03-21
- Trend Micro + NVIDIA AI Factory Security — Drimble.nl, 2026-03-22