Karpathy跳槽Anthropic：当OpenAI联创投向「AI安全对手」，这场预训练战争的底牌换了

2026年5月19日，Andrej Karpathy在X上发了一条帖文：

「我已经加入Anthropic。我认为未来几年在LLM前沿将是尤为重要的形成期。我非常期待加入这里的团队，回到R&D工作。我对教育依然充满热情，并计划在适当时候继续相关工作。」

这条帖文平静得出乎意料。但AI圈反应绝不平静——因为这不是一个普通研究者的跳槽消息。

Andrej Karpathy是谁？他是OpenAI最初那批联合创始人之一，后来离开主导Tesla全自动驾驶（FSD）和Autopilot项目整整5年，2022年回到OpenAI参与大模型研究，2024年又离开创办教育AI公司Eureka Labs，最后在2026年5月宣布加入Anthropic预训练团队，在Nick Joseph麾下组建新团队——研究「用Claude加速预训练研究」。

这条职业轨迹值得仔细拆解，因为它不是随机游走，而是有深刻内在逻辑的一连串选择。每一次，Karpathy都在追随他认为「人类最值得解决的AI问题正在哪里发生」。

这一次，他认为那个地方是Anthropic。

为什么是他？Karpathy的独特性在哪里

理解这次人才流动的意义，首先要理解Karpathy为什么是一个特殊的人。

在AI领域，顶尖研究者可以分为几种类型：

第一种是「理论先行者」，以数学和理论分析见长，专注于架构创新和算法证明。典型如Transformer论文的作者们。

第二种是「系统工程师」，擅长在大规模工程实践中解决实际问题，将理论转化为可以稳定运行的系统。

第三种是「理论-工程通才」，能同时在两个维度工作，将理论洞见直接应用于大规模训练实践，并从工程反馈中提炼新的理论问题。这类人是最稀缺的，因为这两种思维模式很难在同一个人身上共存。

Karpathy属于第三种。

他的Tesla经历尤为关键。Tesla FSD是当时世界上规模最大的真实世界神经网络部署项目——在实际上路的车辆上，每一个错误都可能导致事故。他在这里建立的不是一个可以在测试集上刷高分的玩具系统，而是一个必须在复杂、多变、充满噪声的真实世界中可靠运行的AI系统。这5年的工程经验，赋予了他极少数AI研究者具备的实践感——「理论上应该有效」和「在现实中真的有效」之间的鸿沟有多大，以及如何填平。

在Tesla期间，他选择了一条当时颇具争议的技术路线：全程视觉方案（纯摄像头，放弃激光雷达）。这不只是工程决策，背后是他对「AI应该如何学习感知」的深层判断——他相信神经网络从视觉数据中学习表示是正确的路径，即使短期内性能不如加了激光雷达的混合方案。这个判断最终被证明是有远见的。

他的YouTube频道「Neural Networks: Zero to Hero」系列教程，也揭示了他的另一面——他是极少数真正享受「把复杂事物讲清楚」的顶级研究者。这个教程系列据估算已有数十万人完成学习，培养了整整一代工程师和研究者。他不仅创造知识，也传播知识。

TechCrunch在报道中精准地概括了他的价值：「Karpathy是为数不多能将LLM理论与大规模训练实践打通的研究者。」

这就是Anthropic雇用他的理由。也是为什么他的选择比其他任何人的选择都更有分量。

他去过哪里：一张「正在成为最重要战场」的地图

理解Karpathy的职业选择，必须追溯他的每一次转折背后的判断。

2015-2017，OpenAI联合创始人期

2015年，Elon Musk和Sam Altman联合创办OpenAI，Karpathy是最初那批核心研究者之一。那是深度学习的黎明期——AlexNet刚刚在2012年震惊计算机视觉领域，强化学习的探索正在起步，NLP还没有transformer，AI与人类的巨大差距在几乎所有任务上都是显而易见的。

Karpathy在这个阶段主要研究深度学习在视觉方向的应用，发表了多篇有影响力的论文。但他在OpenAI待的时间并不长——两年后，他看到了他认为更重要的战场。

2017-2022，Tesla FSD负责人

2017年，Karpathy加入Tesla，接下了Autopilot和FSD团队的AI技术领导职责。他的判断是：将AI真正部署到物理世界、以规模化方式解决现实感知和决策问题，是当时最重要的AI工程挑战。

这个判断在当时并不流行——大多数AI研究者认为自动驾驶是「工程项目」，不是「研究问题」，不值得最顶尖的AI研究人才投入。Karpathy不这么看。他在Tesla期间做了几件技术上非常有价值的事：

其一，坚守「纯视觉方案」——拒绝引入激光雷达，依赖纯摄像头感知，这迫使团队在神经网络的表示学习上做到极致。他认为，激光雷达是「作弊」——它给了AI系统不应该依赖的外部感知辅助，而真正的AI应该能从视觉数据（就像人类驾驶时依赖的那样）中学会一切。

其二，推动FSD向端到端神经网络方向演进。传统自动驾驶系统是「感知-规划-控制」的模块化架构，每个模块分别训练和优化。Karpathy推动转向更接近「一个大神经网络，从摄像头输入直接输出方向盘转角」的端到端范式——这与后来大语言模型的思想是一脉相承的：不要手工设计中间表示，让模型自己学。

5年后，他离开Tesla。他后来谈到，自动驾驶的很多问题需要更多时间，那是一个10-20年的项目，而他想工作在更快速迭代的领域。

2022-2024，重返OpenAI

GPT-3已经发布，ChatGPT即将改变世界，大语言模型成为新的核心战场。Karpathy重返OpenAI。他在那里待了大约一年，参与了大模型研究，但他没有留下来见证GPT-4的巅峰时期。

2024年，他再次离开。他的理由是：想要创办一家专注于教育的AI公司。

2024-2026，Eureka Labs

Karpathy发布了一篇博客文章，宣布创办Eureka Labs：「想象一下，如果每个学生都有一个像费曼一样无限耐心、博学的AI导师。」目标是构建AI辅助的在线课程体系，让教育质量与学生数量解耦。他发布了第一门「LLM101n」课程框架。

但此后Eureka Labs的消息越来越少。从他后来的选择来看，这次创业遇到了挑战——也许是底层模型能力在当时还不足以实现他想象中的教育体验，也许是创业公司本身的运营复杂性分散了他的研究精力。

2026年5月，他来到了Anthropic。

每一次转折，他都在选择「此时此刻，人类最重要的AI问题在哪里」。这一次，他的答案是预训练研究的方法论革命。

「用Claude做预训练研究」：递归加速的起点

Anthropic发言人告知TechCrunch，Karpathy将在预训练团队组建一个新团队，专注于「利用Claude来加速预训练研究」。

要理解这句话的深意，先理解预训练在大模型开发链条中的位置。

什么是预训练？

大语言模型的训练分为两个主要阶段。第一阶段是预训练：在海量语料（通常是数万亿tokens的文本数据）上进行大规模训练，让模型学会语言的统计规律、世界知识的表示、以及基本的推理模式。这是决定模型「能力上限」的根本阶段——就像一个孩子在成长过程中积累的所有知识和思维能力基础。

第二阶段是对齐调优（RLHF、Constitutional AI等）：在预训练完成后，用人类反馈让模型学会如何以有益、无害的方式行动。这是决定模型「行为表现」的阶段，但它不能凭空创造预训练阶段没有的能力。

预训练是AI研发中成本最高的环节——耗资数千万至数亿美元的计算资源，需要数周至数月的时间。它也是技术门槛最高的环节——如何选择训练数据、如何设计训练目标、如何处理训练不稳定性、如何在有限计算资源下最大化模型能力——这些都是没有标准答案的开放研究问题，高度依赖研究者的经验和洞察力。

传统的预训练改进路径依赖3个要素：更多算力（更大的GPU集群、更长的训练时间）、更多高质量数据（精心筛选和清洗的语料）、以及更聪明的人类研究者（设计更好的训练目标、架构改进、优化策略）。

Anthropic的新押注是第4个要素：用Claude本身作为预训练研究的加速器。

具体来说，这意味着让Claude帮助研究者完成那些传统上纯靠人力的认知密集型工作：分析大量实验日志（哪次训练运行出了问题？为什么？在哪个训练步骤？），提出新的研究假设（这次训练出现的特定失败模式，可能的原因是什么？有哪些文献可以参考？），快速实现和测试新想法（把这个新的优化器变体实现为可以在训练脚本中运行的代码），综合分析多次实验的结果（从这100次超参数搜索中，最关键的规律是什么？）。

如果Claude能在这些环节上将研究者的效率提高5-10倍，整个预训练研究的速度就会相应提升。更强的Claude反过来又能更好地加速预训练研究——这是一个具有递归性的加速循环。

这不是凭空设想。已经有多个指标表明当前的前沿LLM在科研辅助上的潜力是真实的：Anthropic的研究表明，Claude在代码生成和调试上的帮助已经让工程师的生产效率显著提升；在文献综述、实验设计初稿等任务上也有类似效果。

Karpathy的独特之处在于：他是极少数同时精通「LLM工作原理」和「大规模训练实践」的人。他不仅能清楚地表达「需要Claude帮助完成什么」，还能从第一原理分析「Claude在哪些研究任务上真正有帮助」，以及「如何让Claude对预训练研究任务的帮助更加精准」。

这是一个无法简单地找「能力足够强的AI研究者」或「对Claude用得熟练的工程师」来替代的角色——他同时是两者，而且是两者中最顶尖的那一类。

同日入职的信号：Rohlf和双轨战略

就在Karpathy宣布加入的同一天，Anthropic还宣布了另一个人事任命：网络安全专家Chris Rohlf加入前沿红队（Frontier Red Team）。

两个公告在同一天发出，不可能是巧合。

Rohlf是网络安全领域的资深专家：他曾在Yahoo内部顶级安全团队「The Paranoids」工作，在Meta安全部门工作6年，还是Georgetown大学安全与新兴技术中心CyberAI项目的研究员。他在X上写道：「我们面前有一个真实的机会，用AI大幅改善网络安全。在这个关键时刻，我找不到比Anthropic更好的公司和团队来加入。」

Anthropic的前沿红队专门对最先进的AI模型进行安全压力测试——他们的工作是在模型正式发布前，系统性地找出Claude可能在现实世界中造成严重伤害的方式，识别后修复。这是Anthropic区别于OpenAI的核心之一：在AI安全研究上的深度投入。

把Karpathy和Rohlf的同日入职放在一起看，揭示了一个清晰的战略意图：

能力轨道（Karpathy，预训练团队）：用AI辅助研究的方法论，在相对算力劣势下实现模型能力的突破性提升。目标是让Claude成为最有能力的模型。

安全轨道（Rohlf，前沿红队）：在前沿模型测试阶段引入最顶级的安全专家，确保「比竞争对手更安全」的定位有实质内容支撑，而不只是公关话术。

这两条轨道，必须同时成立，Anthropic才能实现它标榜的差异化——「最有能力、同时最安全」。

如果只有能力优势：与OpenAI的同质竞争，但OpenAI有更大的规模和更强的产品分发能力，正面打不赢。

如果只有安全优势：变成在高风险领域（如军事、监控）中「不能接项目的AI公司」，最终被有能力接这些项目的竞争者边缘化——五角大楼将Anthropic从供应链风险名单中排除的事件就是现实案例。

但如果「最有能力」和「最安全」同时成立：就能吸引那些既需要强大AI能力又对安全有严格要求的客户——金融机构、医疗行业、政府部门（对安全合规有严格要求的那类，而非需要放松安全护栏的军事应用）。

Karpathy和Rohlf的同日入职，是Anthropic向业界发出的明确信号：我们在两条轨道上同时提速。

值得注意的是，就在这两人入职一周前，Anthropic刚刚完成了$300亿的E轮融资，估值达到$1090亿——超越OpenAI成为全球估值最高的AI创业公司。充足的资金储备，是吸引顶尖人才的基本前提；而顶尖人才的到来，又是将资金转化为实际技术突破的关键。

人才竞争的底层逻辑

Karpathy的选择是更大趋势的一个数据点：顶尖AI研究者流向Anthropic的趋势在过去12个月明显加速。

理解这一趋势，需要理解2026年AI研究者面对的就业市场选择已经与5年前截然不同。

5年前的选择框架（2021年前后）：学术界（顶尖大学教职）或产业界（Google、Meta、OpenAI等大科技公司）。学术界给自由度，产业界给资源和规模。

现在的选择框架（2026年）：学术界的影响力相对下降（最尖端的研究大多在产业界发生）；大科技公司的AI研究部门逐渐产品化（越来越多的资源投入产品落地，而非基础研究）；以研究为核心使命的AI安全公司（Anthropic为代表）成为第三条有吸引力的路径。

Anthropic的吸引力来自几个维度的组合：

资源充足：$1090亿估值、$300亿融资意味着充裕的研究预算。计算资源不再是稀缺约束。

研究文化：Anthropic由前OpenAI研究人员创办，保留了学术研究文化——愿意做长周期基础研究，而不是被产品发布节奏压迫。这对像Karpathy这样的研究者来说是关键。他在YouTube视频和博客文章中展示的治学态度，喜欢从第一原理出发，彻底理解而不是工程拼凑。Anthropic的文化更适配这种方式。

使命感：「安全开发AI以造福人类」不只是Anthropic官网上的文字，也深刻影响了公司的研究议程。对于顶尖研究者来说，在有清晰使命感的地方工作，比在纯商业化的环境中要有动力得多。

上升轨迹：Anthropic的模型能力在过去18个月有显著进步，Claude（当前版本在多个基准上已经处于领先位置）。加入一个「正在上升」的团队，比加入一个「已经统治、只是守成」的团队，能给研究者更大的施展空间和更快的成长曲线。

招募Karpathy的示范效应：人才的汇聚具有自我强化的性质。Karpathy的加入，不只是带来了他一个人的能力，还会向其他顶尖研究者发出信号：「这里是认真做前沿研究的地方。」这种信号效应，在接下来12-24个月，可能会吸引更多同类型的研究者。

一个对立视角：这次选择是否被高估了？

对上述分析保持公平，我们也应该呈现质疑的声音。

质疑1：Karpathy此前创业进展停滞，是否意味着他最适合在大型机构工作，而非独立领导团队？

这个质疑有一定合理性。Eureka Labs从宣布到鲜有公开更新只用了不到两年（据TechCrunch报道，2024年创办后Karpathy极少更新进展），这可能说明Karpathy的优势在于解决大规模技术问题（像Tesla FSD），而不是从零开始建立一个公司（需要产品/市场匹配的感知、招募早期团队、资金管理等截然不同的能力）。

加入Anthropic做预训练研究，在这个维度上是扬长避短——他可以专注于技术研究，而不需要承担创始人的全部职责。但这也意味着，「Karpathy加入Anthropic」的效应更多是给Anthropic现有团队的能量加成，而不是创建一个全新的研究方向。

质疑2：「用Claude做预训练研究」真的能产生显著效果吗？

这是一个合理的技术质疑。AI辅助研究（AI for Science）是当前很热的方向，但在机器学习研究本身的加速上，是否能有「可测量的显著提升」，目前还没有决定性的证据。

反方观点是：预训练研究中大量重复性的分析工作（读训练日志、比较超参数实验结果）可能并不需要「Claude的深度推理」，而是需要更系统化的实验追踪工具。如果Karpathy的团队最终交出的成果是「更好的训练日志分析仪表盘」，而不是「用AI提出新的训练目标」，那象征意义会大于实质意义。

支持方回应：Anthropic在「可解释性AI」（Mechanistic Interpretability）上已经有深厚积累，对理解神经网络内部工作机制有独特优势。将这种可解释性知识和Claude的推理能力结合，在预训练研究中的应用可能比外界想象的更实质。

质疑3：研究者流向Anthropic是否只是短期趋势？

还有一种观点认为，Anthropic目前的人才吸引力部分来自于它处于上升期和融资完成后的高光时刻。一旦资金消耗、产品面临更大竞争压力，研究文化与商业化压力之间的张力可能会和OpenAI早期经历的一样难以调和。

这个质疑是合理的——任何「研究型公司」在规模化过程中都面临这个挑战。Anthropic能否长期维护其研究文化，取决于公司的商业模式是否足够健康，以及领导层是否有足够的意愿抵御产品化压力。目前看，$109亿估值和清晰的企业客户变现路径给了一定缓冲空间，但这不是永久保障。

这对AI研究格局的连锁影响

最后让我们展望这次人才流动的后续效应。

对OpenAI：象征性的损失大于实质损失。Karpathy上次在OpenAI的时间（2022-2024）只有2年，并非OpenAI当前研究计划的核心。但他联合创始人的身份，加上他在AI教育领域的影响力，使他的背书具有特殊分量。他选择了Anthropic而不是回到OpenAI，这个信号在AI研究社区会被认真解读。更重要的是，这件事加剧了一个正在形成的叙事：OpenAI正在「从研究型机构变成产品公司」，而那些更在乎研究本身的人正在往别处走。

对Google DeepMind：短期影响有限。Google DeepMind有足够强大的研究传统和计算资源，不会因为一个人的选择而动摇。但在「AI安全研究领导者」的品牌竞争上，Anthropic正在积累越来越多的正面信号——这是一个慢变量，但方向清晰。

对Anthropic的招募管线：示范效应会在6-18个月内体现。在校园招聘季和行业招募中，「Karpathy选择了Anthropic」会成为有力的谈判工具。对于那些在Anthropic和其他公司之间犹豫的候选人，这个信号会向Anthropic倾斜他们的天平。

对整个AI研究生态：Karpathy在AI教育领域的影响力，让他的选择有超出研究者圈子的传播效应。他YouTube频道的数十万（订阅量未经独立统计），他的博客读者，那些通过「Neural Networks: Zero to Hero」入门AI的工程师——这些人会注意到他的选择，也会形成对Anthropic的认知。这是一种软性的品牌资产，但在长周期的人才竞争中，它的价值不可忽视。事实上，过去一代工程师的AI认知框架很大程度上是由Karpathy的教学塑造的——他讲Backpropagation、讲GPT从头实现、讲神经网络架构演进的方式，影响了成千上万的入门者和进阶学习者。这些人现在很多已经成为各大公司的AI工程师，他们的「Karpathy在哪儿，那里就是前沿」的潜意识判断，会以隐性方式影响整个行业的人才流向。

对AI安全研究领域：过去几年，「AI安全」研究的地位在学界和工业界之间存在落差——学界认真对待，大科技公司往往将其视为公关需求而非严肃科研。Karpathy的加入，以及Rohlf同日入职前沿红队，强化了Anthropic「把AI安全作为一等公民研究问题」的定位。这对于吸引更多安全导向的研究者，有实质性的信号意义。

后记：Eureka Labs的承诺

Karpathy在帖文末尾说：「我对教育依然充满热情，并计划在适当时候继续相关工作。」

这句话有一种温柔的遗憾，也有一个延迟但未放弃的承诺。

Eureka Labs的梦想——让每个学生都有一个像费曼一样的AI导师，让教育质量与教师规模解耦——没有在那次创业中实现。但他没有宣布放弃，只是推迟了。

有趣的是，「用Claude加速预训练研究」和「用AI做教育」，在更深的层面是同一个命题：AI能不能真正加速人类认知和学习的过程？

一个命题针对顶级AI研究者——让他们在实验、分析、洞察的循环中跑得更快，在同样时间内完成更多的科研迭代。一个命题针对每一个普通学生——让他们在理解概念、练习应用、纠正错误的循环中进展更顺畅。

两者的核心技术挑战是相似的：AI需要真正理解人的思维状态和认知障碍，才能提供精准的帮助，而不只是给出正确答案。前者的反馈环境更短、更清晰（研究者能立即判断一个假设是否有价值），后者的反馈环境更复杂（学生的理解程度难以精准测量）。

如果Karpathy在Anthropic证明了「AI能系统性地加速高水平的科研学习过程」，他也就同时积累了更多证据和方法论基础，支持「AI能系统性地加速每个人的学习过程」这个更宏大的命题。

在某个时间节点，这两条路会汇合。

现在，他在Anthropic，帮Claude学会如何更好地训练自己。那个关于每个学生的故事，会等他。

从2015年联合创办OpenAI，到2026年加入Anthropic预训练团队，Karpathy走了11年。这11年里，他始终在做同一件事：找到那个「此时此刻最值得花精力解决的AI问题」，然后全力投入。他不是那种凭惯性在一个地方待20年的人，也不是那种为了简历好看而跳槽的人。他是一个罕见的「有信念驱动的流动者」——去哪里，完全取决于他对「哪里正在发生最重要的事」的判断。

2026年5月，他的判断是：Anthropic。这个判断，值得我们认真对待。

参考资料

OpenAI co-founder Andrej Karpathy joins Anthropic’s pre-training team, TechCrunch, 2026-05-19 https://techcrunch.com/2026/05/19/openai-co-founder-andrej-karpathy-joins-anthropics-pre-training-team/
Andrej Karpathy on X: joining Anthropic announcement, 2026-05-19 https://x.com/karpathy/status/2056753169888334312
Chris Rohlf on X: joining Anthropic frontier red team, 2026-05-19 https://x.com/chrisrohlf/status/2056744653165092983
After Tesla and OpenAI, Andrej Karpathy’s startup aims to apply AI assistants to education, TechCrunch, 2024-07-16 https://techcrunch.com/2024/07/16/after-tesla-and-openai-andrej-karpathys-startup-aims-to-apply-ai-assistants-to-education/
Anthropic completes $30 billion Series E funding at $109 billion valuation, CNBC, 2026-05-23 https://www.cnbc.com/2026/05/23/anthropic-raises-30-billion-series-e-funding-at-109-billion-valuation.html

Karpathy跳槽Anthropic：当OpenAI联创投向「AI安全对手」，这场预训练战争的底牌换了

Karpathy跳槽Anthropic：当OpenAI联创投向「AI安全对手」，这场预训练战争的底牌换了

为什么是他？Karpathy的独特性在哪里

他去过哪里：一张「正在成为最重要战场」的地图

「用Claude做预训练研究」：递归加速的起点

同日入职的信号：Rohlf和双轨战略

人才竞争的底层逻辑

一个对立视角：这次选择是否被高估了？

这对AI研究格局的连锁影响

后记：Eureka Labs的承诺

参考资料

Tags:

About

Categories

Recent Posts

Resources