Devin完成了你87%的代码：这个数字改变了「程序员是什么」的定义

先问一个简单的问题

你昨天写了多少行代码？

如果你是Devin的用户，正确答案可能是：你没写，但Devin写了。

2026年5月，Cognition CEO Scott Wu对TechCrunch透露了一个数字：Devin目前自主完成的代码比例，是89%。

6个月前，这个数字是13%。

89%——这意味着，在一个使用Devin的开发任务里，10行代码中有近9行是由AI自主生成、测试、提交的。人类工程师的直接编码工作，已经被压缩到了11%。

这不是一个工具升级，这是「程序员是什么」的定义被悄悄重写。

这个跳跃，比Cognition刚刚宣布的超10亿美元Series D融资更值得停下来仔细看。因为它不是一个营销数字——它是产品市场匹配（PMF）发生的最直接证据。投资人们显然看到了这个拐点——$260亿估值，在一个连收入规模都还不完全透明的公司身上，说明市场在为一种全新的劳动力形态定价。

这不是普通的融资故事。这是AI编程代理从「实验室玩具」走向「可交付的数字员工」的节点性时刻。

从13%到89%：不是进化，是突变

先来理解这个数字本身。

代码自写率听起来简单，背后的含义复杂。它不只是「AI写了多少行代码」，而是「在整个软件开发工作流中，从需求理解到代码生成、测试、调试、提交，有多少比例是由AI主导完成的」。

2025年12月，Devin的这个比例是13%。这意味着在一个标准的软件开发任务里，87%的实质性工作还是由人类工程师完成的。Devin更像是一个「高级补全插件」——有用，但没有颠覆性。用它的工程师能提高效率，但工作性质没有根本变化。

2026年5月，89%。这意味着Devin已经从「辅助」变成了「主力」。人类工程师主要扮演的是需求澄清者、架构决策者和最终审核者的角色，而不是代码的主要生产者。这是一个性质的变化：从人类用AI，到AI完成任务后人类审核。

6个月时间，从13%到89%，这个增长曲线不是线性的。如果把软件开发能力想象成一条从「完全手动」到「完全自动」的轴线，13%和89%之间不只是数字差异，而是产品所处象限的根本不同。

这个突变背后是什么？

技术层：长程任务链的合拢

早期的AI编程工具擅长「片段」——生成一个函数、解释一段代码、补全一行逻辑。但实际的软件开发是一个「系统」：需求分析→架构设计→分模块开发→测试→调试→重构→提交，是一条必须维持语境一致性的长链。

AI在这条链上的断裂点——也就是「往前走几步就开始产生幻觉或迷失方向」的问题——一直是限制自主率的根本原因。工程师们发现，让AI写一个函数很简单，让AI理解「这个函数在整个系统里的位置、它的副作用、它如何与下游的五个模块协作」，就是另一回事了。

2026年上半年，这条链开始合拢。这背后有几个并行的技术进步：

首先，推理模型（reasoning model）的成熟让AI在处理复杂、多步骤问题时不再那么容易「短路」。Claude Opus系列和GPT-o系列都在向这个方向持续改进。

其次，Context window的扩大让AI能够「记住」更长时间跨度的工作背景。对于一个需要在数百个文件中保持一致性修改的任务，这个能力至关重要。

第三，也是最关键的——对「失败-修正」循环（debug loop）的学习能力。真实的软件开发大量时间不是在写新代码，而是在找错误、理解错误、修复错误。AI代理能够独立运行测试、理解错误信息、自主尝试修复，这个能力的成熟，直接驱动了自写率的跳跃。

Anthropic同期发布的Claude Opus 4.8提供了一个旁证。Bun JavaScript运行时的创始人Jarred Sumner，用Claude Code的Dynamic Workflows功能，11天内将750,000行Zig代码完整迁移到了Rust语言，99.8%的现有测试通过，从第一次提交到最终合并只用了11天。

这不是单篇代码，这是75万行代码库的系统性迁移。这个案例和Devin的89%，指向同一个现象：AI辅助编程的能力边界，在2026年5月前后，发生了质变。

产品层：任务边界的重新定义

除了技术，还有一个容易被忽视的产品层因素：什么叫「完成任务」的定义，也在变化。

早期的AI编程代理经常面临一个现实困境——任务完成了，但质量参差不齐，工程师仍需大量返工，所以实际上并没有真正「省时间」。这使得自主率数字看起来高，但实际价值打折。

Devin的89%，能成为有意义的数字，前提是这89%产出的代码有足够的质量，不需要人类花同等甚至更多时间来审查和修复。这个质量门槛，是真正的PMF的核心。

从用户反馈来看，Devin在「边界清晰、规格明确」的任务类型上，质量已经达到了这个门槛。典型场景包括：在已有代码库中添加新功能、修复已知bug、将代码从一个技术栈迁移到另一个、编写测试用例等。

这些不是小场景——这是软件工程日常工作中相当大比例的组成部分。

CEO的哲学：「认知卸载」是真诚还是包装？

Scott Wu在采访中说了一句在AI行业颇为罕见的话：

「我们不以取代人类工程师为目标，我们的目标是认知卸载（cognitive offloading）。」

在一个充斥着「AI将取代所有人」和「AI只是工具，人类无可替代」两种极端叙事的行业里，「认知卸载」是一个值得认真对待的第三种框架。

认知卸载的含义是：人类的认知资源是有限的，而AI可以接管那些不需要人类「最高阶认知」的工作——标准流程、重复性逻辑、有明确规格的实现任务。人类由此可以将精力集中在「真正需要创造性判断」的部分：产品方向、架构决策、用户洞察、系统边界设定、以及面对歧义需求时的判断能力。

这个框架背后有几个层次的意义：

第一个层次：它是一个更诚实的能力定义

认知卸载框架隐含承认了AI的局限。那89%里排除的11%，不是随机的11%，很可能正是最需要创造性判断、最难以规格化的工作。真正的「取代」，需要AI能够处理那11%——而在可见的未来，那11%仍然是人类的领地。

第二个层次：它是一个更有利的商业定位

对于一家B2B公司来说，让客户（企业）感到「AI会取走工程师的工作」是一个双刃剑。它可能驱动某些希望降本的企业购买，但它同样会引发工程师团队的抵制，增加部署摩擦。

「认知卸载」则相反——它让工程师看到的是「我的工作会变得更有趣，那些无聊的部分可以交出去了」，而不是「我可能会失业」。这个心理账户的差异，在实际企业采购和内部推广中至关重要。

第三个层次：它可能低估了变化的速度

但这个框架也有一个问题。当代码自写率从13%到89%只用了6个月，当89%意味着人类主要是在「审核AI的工作」，那么「哪些工作是AI做不了的11%」这个边界，是固定的，还是也在快速移动的？

如果这条线每6个月就往前推进一次，那么今天的「认知卸载」，和明天的「取代」之间，可能没有那么大的距离。

Scott Wu没有回答这个问题。这不是批评——没有人知道答案。但这个问题，会在未来某个季度的财报电话会上被重新提起。

$260亿估值的市场逻辑

Series D融资超10亿美元，估值260亿美元。

对于一家尚未透明化收入规模的公司，260亿美元是什么概念？

先做几个对比：

GitHub在2018年被微软收购时，估值75亿美元，服务了超过2800万开发者，是软件开发者协作的基础设施。Figma在2022年被Adobe以200亿美元要约收购时（最终因反垄断审查失败），有超过400万月活跃用户，是设计师的核心工具。

Cognition的260亿，从公开信息来看，用户和收入规模很可能都远不及上述对标。那260亿定价的基础是什么？

市场规模的乘数

全球有超过2700万专业软件工程师（GitHub 2024年报告）。企业软件开发的年度支出规模保守估计超过1万亿美元（人力成本+基础设施+工具采购）。

如果AI编程代理能够将每个工程师的有效产出放大5倍（保守估计），这相当于无需新增招募就产生了1.35亿工程师当量的产能。这些产能的经济价值，即使只是以每人每年1万美元的工具订阅费来变现，也是一个1.35万亿美元的市场。

在这个逻辑下，260亿是在定价「第一家被大规模企业验证的任务级AI编程代理」的市场领导者溢价。

先发优势的定价

在一个新的工具品类里，第一个被工程师认可并推荐的产品，往往获得「工作流嵌入」的先发优势。一旦一个团队的工作流程开始围绕某款工具建立，切换成本会迅速上升——因为切换不只是换个软件，而是改变整个团队的协作模式。

Devin的89%自写率，是它向市场宣称「我已经准备好成为工程团队的主力工具」的最强信号。260亿是市场对这个信号的定价。

不确定性的折价

但这里必须加上一个折价因素。竞争格局的不确定性是真实存在的。Anthropic的Claude Code、OpenAI的代码代理能力、以及GitHub Copilot向代理模式的演进，都在压缩独立AI编程代理公司的独特价值窗口。

260亿，同时包含了「市场领导者定价」和「独立性风险折价」的张力。

竞争图景的三层分化

理解Cognition的估值，不能脱离整个AI编程工具的竞争图景。

这个市场正在发生一次显著的层次分化：

第一层：代码补全/辅助工具（Completion Layer）

代表产品：GitHub Copilot、JetBrains AI Assistant、Cursor、Tabnine。

这一层的特征是：AI在人类编程时提供实时建议。驾驶权在人类，AI提供方向盘辅助和道路预测。这一层已经高度成熟，主要玩家格局基本确定，并且正在快速向基础服务（commodity）方向演进。GitHub Copilot已经有超过1.77亿开发者用户，这一层的赢家效应已经形成。

第二层：任务级代理（Task Agent Layer）

代表产品：Devin（Cognition）、Claude Code（Anthropic，部分场景）、Codex Agent（OpenAI）。

这一层的特征是：用户给AI一个任务，AI自主规划、执行、测试、完成，并汇报结果。驾驶权发生了转移——用户是任务下达者，AI是执行者。这一层还在混战期，但高估值融资开始为市场圈定头部。

第三层：系统级自主（Autonomous System Layer，萌芽中）

这一层的特征是：AI能够理解业务目标（而不只是技术任务），自主进行需求拆解、技术选型、开发、部署，并基于反馈持续迭代系统。目前没有任何产品稳定存在于这一层。

Devin的战场是第二层。它的核心差异化在于：与Claude Code相比，Devin的目标用户群更宽泛——它不要求用户本身是专业工程师。Claude Code是工程师的超级武器，Devin的理想用户是「会描述问题的创始人」或「懂业务但不懂代码的产品经理」。

这两个细分市场都很大，但需要完全不同的产品设计哲学。

合理的担忧：泡沫与验证的边界

在这个兴奋的叙事下，有几个需要认真对待的风险：

风险一：自写率的测量口径问题

89%是在什么任务集上测量的？如果测试集主要由边界清晰、规格明确的任务构成，那么在真实的企业环境中——充满了歧义需求、遗留代码债务、复杂业务逻辑的交叉——实际完成率可能远低于89%。

这不是说89%是假的，而是说它的适用范围是有边界的。企业在采购决策时，需要在自己的实际工作场景中验证，而不是接受benchmarks数字。

风险二：平台竞争的时间窗口

Anthropic、OpenAI、Google等大型AI平台都在将更强的代理能力直接嵌入平台工具。当Claude Code原生支持数百并行子代理（Opus 4.8 Dynamic Workflows），当OpenAI的Codex API支持完整的代码仓库级别代理任务，Devin这样的独立垂直代理，独特价值窗口有多宽、能维持多久？

历史上，垂直应用被平台蚕食是科技行业的常见结局（想想Twitter的第三方客户端、Slack的早期IRC竞争对手）。Cognition要避开这个命运，需要在平台层之外建立深度的企业级工作流嵌入——而这需要时间。

风险三：企业部署的合规摩擦

金融、医疗、国防等高合规行业，对代码生成有严格的审计要求。89%的AI自写率意味着89%的代码需要完整的合规追溯。这既增加了法律合规的复杂度，也可能在某些场景下反而拖慢整体交付速度。

Cognition要真正渗透这些行业，需要解答「AI写的代码如何在合规框架下被审计和追责」，这不只是技术问题，也是法律问题。

第三层洞察：一次市场分层的加速定格

这里有一个多数报道没有充分强调的结构性观察：

Cognition的260亿，Anthropic同期完成的650亿Series H达到9650亿估值，再加上GitHub Copilot已经渗透1.77亿开发者——这三个数字同时存在，说明AI编程工具市场不是一个「单一战场」的竞争，而是一次多层次的同步分层定格。

在「铁路时代」，基础设施投资（铺轨）和应用投资（火车票）是两类完全不同的资产。今天的AI编程工具市场也是如此——代码补全（Copilot层）已经是「基础设施」，正在向commodity化演进；任务代理（Devin层）是「应用层」，正在经历高增速定价期；系统级自主（尚未存在的第三层）是「未来的基础设施」，现在的每一笔投资都是在为那个时代抢占入场券。

对于企业CTO来说，这意味着：现在对AI编程工具的选型，不只是选择「今天最好用的工具」，而是在选择「与哪家公司的能力路线图绑定」。

Cognition的260亿估值买的是什么？是Devin今天的产品，加上Cognition未来把这条路线图走到底的「路径选项权」。

这才是这一轮估值背后真正的逻辑。

对工程师、CTO和投资人的实际含义

这个故事对不同角色有不同的含义：

对软件工程师

这不是「明天你会失业」的信号，而是「你的工作内容正在重新定义」的信号。当89%的代码可以由AI写，工程师的核心价值不再是写代码的速度，而是判断「写什么」、「为什么这样写」、以及「AI写的这段代码在整个系统里是否正确」。

这些能力，今天被大量工程师低估，未来将成为稀缺。真正值得焦虑的不是被AI取代，而是没有提前培养这些判断层面的能力。

对CTO和技术负责人

现在是开始认真评估「AI编程代理在团队工作流中的实际位置」的时候了。这不是作为试验项目，而是作为可能影响团队规模、技术选型、以及工程效率基准的战略决策。

推荐的实验路径：找一个边界清晰的内部项目，让Devin或同类工具全程主导，团队负责审核——不只是评估效率提升，也是评估质量、合规和工作流适配性。

对投资人

Cognition的Series D告诉市场，AI编程代理这个品类已经脱离「早期实验」阶段，进入了「规模化商业化」的起点。260亿估值是这一判断的市场定价。

下一个关键数据点，是Devin的年化收入何时透明化，以及真实企业部署中89%的任务完成率是否能在多样化场景下维持。

结语：11%的护城河

89%之后，最值得思考的不是「AI会不会继续进步到99%」，而是：那剩下的11%，究竟是什么？

从Devin的使用案例来看，那11%大约是：不知道「写什么」的决策（产品方向、架构选择）、无法规格化的创意判断（如何让用户体验更优雅）、以及当AI方案出错时的「问题识别」能力（发现AI没有发现的问题）。

这些能力的共同点是：它们不是「更快写更多代码」，而是「知道应该做什么，以及判断做完是否正确」。这是人类高阶认知的核心，也是AI目前最难复制的能力边界。

所以，89%不是程序员的末日，而是程序员职业的一次深度重塑——从「代码生产者」到「方向设定者和质量把关者」。那些今天开始强化这11%能力的工程师，会在明天的市场里找到自己的位置。

那些还在用「AI威胁论」或「AI只是工具」的二元框架思考这个问题的工程师——无论哪个极端——都可能在这个重塑中措手不及。

Scott Wu把这个转变叫做「认知卸载」。我更愿意把它叫做：程序员职业的第二次进化。第一次是从汇编语言到高级编程语言，程序员从「机器语言翻译者」进化为「问题解决者」。第二次是从「代码书写者」进化为「AI任务指挥者和判断者」。

89%只是开始。这次进化，已经在发生了。

参考资料

Cognition’s Scott Wu says AI coding agents shouldn’t replace humans — TechCrunch, 2026-05-29
Claude Code introduces dynamic workflows for complex engineering tasks — Anthropic Claude Blog, 2026-05-28
Introducing Claude Opus 4.8 — Anthropic Official, 2026-05-28
Anthropic releases Opus 4.8 with new dynamic workflow tool — TechCrunch, 2026-05-28

Devin完成了你87%的代码：这个数字改变了「程序员是什么」的定义

先问一个简单的问题

从13%到89%：不是进化，是突变

CEO的哲学：「认知卸载」是真诚还是包装？

$260亿估值的市场逻辑

竞争图景的三层分化

合理的担忧：泡沫与验证的边界

第三层洞察：一次市场分层的加速定格

对工程师、CTO和投资人的实际含义

结语：11%的护城河

参考资料

Tags:

About

Categories

Recent Posts

Resources