Devin完成了你87%的代码:这个数字改变了「程序员是什么」的定义
先问一个简单的问题
你昨天写了多少行代码?
如果你是Devin的用户,正确答案可能是:你没写,但Devin写了。
2026年5月,Cognition CEO Scott Wu对TechCrunch透露了一个数字:Devin目前自主完成的代码比例,是89%。
6个月前,这个数字是13%。
89%——这意味着,在一个使用Devin的开发任务里,10行代码中有近9行是由AI自主生成、测试、提交的。人类工程师的直接编码工作,已经被压缩到了11%。
这不是一个工具升级,这是「程序员是什么」的定义被悄悄重写。
这个跳跃,比Cognition刚刚宣布的超10亿美元Series D融资更值得停下来仔细看。因为它不是一个营销数字——它是产品市场匹配(PMF)发生的最直接证据。投资人们显然看到了这个拐点——$260亿估值,在一个连收入规模都还不完全透明的公司身上,说明市场在为一种全新的劳动力形态定价。
这不是普通的融资故事。这是AI编程代理从「实验室玩具」走向「可交付的数字员工」的节点性时刻。
从13%到89%:不是进化,是突变
先来理解这个数字本身。
代码自写率听起来简单,背后的含义复杂。它不只是「AI写了多少行代码」,而是「在整个软件开发工作流中,从需求理解到代码生成、测试、调试、提交,有多少比例是由AI主导完成的」。
2025年12月,Devin的这个比例是13%。这意味着在一个标准的软件开发任务里,87%的实质性工作还是由人类工程师完成的。Devin更像是一个「高级补全插件」——有用,但没有颠覆性。用它的工程师能提高效率,但工作性质没有根本变化。
2026年5月,89%。这意味着Devin已经从「辅助」变成了「主力」。人类工程师主要扮演的是需求澄清者、架构决策者和最终审核者的角色,而不是代码的主要生产者。这是一个性质的变化:从人类用AI,到AI完成任务后人类审核。
6个月时间,从13%到89%,这个增长曲线不是线性的。如果把软件开发能力想象成一条从「完全手动」到「完全自动」的轴线,13%和89%之间不只是数字差异,而是产品所处象限的根本不同。
这个突变背后是什么?
技术层:长程任务链的合拢
早期的AI编程工具擅长「片段」——生成一个函数、解释一段代码、补全一行逻辑。但实际的软件开发是一个「系统」:需求分析→架构设计→分模块开发→测试→调试→重构→提交,是一条必须维持语境一致性的长链。
AI在这条链上的断裂点——也就是「往前走几步就开始产生幻觉或迷失方向」的问题——一直是限制自主率的根本原因。工程师们发现,让AI写一个函数很简单,让AI理解「这个函数在整个系统里的位置、它的副作用、它如何与下游的五个模块协作」,就是另一回事了。
2026年上半年,这条链开始合拢。这背后有几个并行的技术进步:
首先,推理模型(reasoning model)的成熟让AI在处理复杂、多步骤问题时不再那么容易「短路」。Claude Opus系列和GPT-o系列都在向这个方向持续改进。
其次,Context window的扩大让AI能够「记住」更长时间跨度的工作背景。对于一个需要在数百个文件中保持一致性修改的任务,这个能力至关重要。
第三,也是最关键的——对「失败-修正」循环(debug loop)的学习能力。真实的软件开发大量时间不是在写新代码,而是在找错误、理解错误、修复错误。AI代理能够独立运行测试、理解错误信息、自主尝试修复,这个能力的成熟,直接驱动了自写率的跳跃。
Anthropic同期发布的Claude Opus 4.8提供了一个旁证。Bun JavaScript运行时的创始人Jarred Sumner,用Claude Code的Dynamic Workflows功能,11天内将750,000行Zig代码完整迁移到了Rust语言,99.8%的现有测试通过,从第一次提交到最终合并只用了11天。
这不是单篇代码,这是75万行代码库的系统性迁移。这个案例和Devin的89%,指向同一个现象:AI辅助编程的能力边界,在2026年5月前后,发生了质变。
产品层:任务边界的重新定义
除了技术,还有一个容易被忽视的产品层因素:什么叫「完成任务」的定义,也在变化。
早期的AI编程代理经常面临一个现实困境——任务完成了,但质量参差不齐,工程师仍需大量返工,所以实际上并没有真正「省时间」。这使得自主率数字看起来高,但实际价值打折。
Devin的89%,能成为有意义的数字,前提是这89%产出的代码有足够的质量,不需要人类花同等甚至更多时间来审查和修复。这个质量门槛,是真正的PMF的核心。
从用户反馈来看,Devin在「边界清晰、规格明确」的任务类型上,质量已经达到了这个门槛。典型场景包括:在已有代码库中添加新功能、修复已知bug、将代码从一个技术栈迁移到另一个、编写测试用例等。
这些不是小场景——这是软件工程日常工作中相当大比例的组成部分。
CEO的哲学:「认知卸载」是真诚还是包装?
Scott Wu在采访中说了一句在AI行业颇为罕见的话:
「我们不以取代人类工程师为目标,我们的目标是认知卸载(cognitive offloading)。」
在一个充斥着「AI将取代所有人」和「AI只是工具,人类无可替代」两种极端叙事的行业里,「认知卸载」是一个值得认真对待的第三种框架。
认知卸载的含义是:人类的认知资源是有限的,而AI可以接管那些不需要人类「最高阶认知」的工作——标准流程、重复性逻辑、有明确规格的实现任务。人类由此可以将精力集中在「真正需要创造性判断」的部分:产品方向、架构决策、用户洞察、系统边界设定、以及面对歧义需求时的判断能力。
这个框架背后有几个层次的意义:
第一个层次:它是一个更诚实的能力定义
认知卸载框架隐含承认了AI的局限。那89%里排除的11%,不是随机的11%,很可能正是最需要创造性判断、最难以规格化的工作。真正的「取代」,需要AI能够处理那11%——而在可见的未来,那11%仍然是人类的领地。
第二个层次:它是一个更有利的商业定位
对于一家B2B公司来说,让客户(企业)感到「AI会取走工程师的工作」是一个双刃剑。它可能驱动某些希望降本的企业购买,但它同样会引发工程师团队的抵制,增加部署摩擦。
「认知卸载」则相反——它让工程师看到的是「我的工作会变得更有趣,那些无聊的部分可以交出去了」,而不是「我可能会失业」。这个心理账户的差异,在实际企业采购和内部推广中至关重要。
第三个层次:它可能低估了变化的速度
但这个框架也有一个问题。当代码自写率从13%到89%只用了6个月,当89%意味着人类主要是在「审核AI的工作」,那么「哪些工作是AI做不了的11%」这个边界,是固定的,还是也在快速移动的?
如果这条线每6个月就往前推进一次,那么今天的「认知卸载」,和明天的「取代」之间,可能没有那么大的距离。
Scott Wu没有回答这个问题。这不是批评——没有人知道答案。但这个问题,会在未来某个季度的财报电话会上被重新提起。
$260亿估值的市场逻辑
Series D融资超10亿美元,估值260亿美元。
对于一家尚未透明化收入规模的公司,260亿美元是什么概念?
先做几个对比:
GitHub在2018年被微软收购时,估值75亿美元,服务了超过2800万开发者,是软件开发者协作的基础设施。Figma在2022年被Adobe以200亿美元要约收购时(最终因反垄断审查失败),有超过400万月活跃用户,是设计师的核心工具。
Cognition的260亿,从公开信息来看,用户和收入规模很可能都远不及上述对标。那260亿定价的基础是什么?
市场规模的乘数
全球有超过2700万专业软件工程师(GitHub 2024年报告)。企业软件开发的年度支出规模保守估计超过1万亿美元(人力成本+基础设施+工具采购)。
如果AI编程代理能够将每个工程师的有效产出放大5倍(保守估计),这相当于无需新增招募就产生了1.35亿工程师当量的产能。这些产能的经济价值,即使只是以每人每年1万美元的工具订阅费来变现,也是一个1.35万亿美元的市场。
在这个逻辑下,260亿是在定价「第一家被大规模企业验证的任务级AI编程代理」的市场领导者溢价。
先发优势的定价
在一个新的工具品类里,第一个被工程师认可并推荐的产品,往往获得「工作流嵌入」的先发优势。一旦一个团队的工作流程开始围绕某款工具建立,切换成本会迅速上升——因为切换不只是换个软件,而是改变整个团队的协作模式。
Devin的89%自写率,是它向市场宣称「我已经准备好成为工程团队的主力工具」的最强信号。260亿是市场对这个信号的定价。
不确定性的折价
但这里必须加上一个折价因素。竞争格局的不确定性是真实存在的。Anthropic的Claude Code、OpenAI的代码代理能力、以及GitHub Copilot向代理模式的演进,都在压缩独立AI编程代理公司的独特价值窗口。
260亿,同时包含了「市场领导者定价」和「独立性风险折价」的张力。
竞争图景的三层分化
理解Cognition的估值,不能脱离整个AI编程工具的竞争图景。
这个市场正在发生一次显著的层次分化:
第一层:代码补全/辅助工具(Completion Layer)
代表产品:GitHub Copilot、JetBrains AI Assistant、Cursor、Tabnine。
这一层的特征是:AI在人类编程时提供实时建议。驾驶权在人类,AI提供方向盘辅助和道路预测。这一层已经高度成熟,主要玩家格局基本确定,并且正在快速向基础服务(commodity)方向演进。GitHub Copilot已经有超过1.77亿开发者用户,这一层的赢家效应已经形成。
第二层:任务级代理(Task Agent Layer)
代表产品:Devin(Cognition)、Claude Code(Anthropic,部分场景)、Codex Agent(OpenAI)。
这一层的特征是:用户给AI一个任务,AI自主规划、执行、测试、完成,并汇报结果。驾驶权发生了转移——用户是任务下达者,AI是执行者。这一层还在混战期,但高估值融资开始为市场圈定头部。
第三层:系统级自主(Autonomous System Layer,萌芽中)
这一层的特征是:AI能够理解业务目标(而不只是技术任务),自主进行需求拆解、技术选型、开发、部署,并基于反馈持续迭代系统。目前没有任何产品稳定存在于这一层。
Devin的战场是第二层。它的核心差异化在于:与Claude Code相比,Devin的目标用户群更宽泛——它不要求用户本身是专业工程师。Claude Code是工程师的超级武器,Devin的理想用户是「会描述问题的创始人」或「懂业务但不懂代码的产品经理」。
这两个细分市场都很大,但需要完全不同的产品设计哲学。
合理的担忧:泡沫与验证的边界
在这个兴奋的叙事下,有几个需要认真对待的风险:
风险一:自写率的测量口径问题
89%是在什么任务集上测量的?如果测试集主要由边界清晰、规格明确的任务构成,那么在真实的企业环境中——充满了歧义需求、遗留代码债务、复杂业务逻辑的交叉——实际完成率可能远低于89%。
这不是说89%是假的,而是说它的适用范围是有边界的。企业在采购决策时,需要在自己的实际工作场景中验证,而不是接受benchmarks数字。
风险二:平台竞争的时间窗口
Anthropic、OpenAI、Google等大型AI平台都在将更强的代理能力直接嵌入平台工具。当Claude Code原生支持数百并行子代理(Opus 4.8 Dynamic Workflows),当OpenAI的Codex API支持完整的代码仓库级别代理任务,Devin这样的独立垂直代理,独特价值窗口有多宽、能维持多久?
历史上,垂直应用被平台蚕食是科技行业的常见结局(想想Twitter的第三方客户端、Slack的早期IRC竞争对手)。Cognition要避开这个命运,需要在平台层之外建立深度的企业级工作流嵌入——而这需要时间。
风险三:企业部署的合规摩擦
金融、医疗、国防等高合规行业,对代码生成有严格的审计要求。89%的AI自写率意味着89%的代码需要完整的合规追溯。这既增加了法律合规的复杂度,也可能在某些场景下反而拖慢整体交付速度。
Cognition要真正渗透这些行业,需要解答「AI写的代码如何在合规框架下被审计和追责」,这不只是技术问题,也是法律问题。
第三层洞察:一次市场分层的加速定格
这里有一个多数报道没有充分强调的结构性观察:
Cognition的260亿,Anthropic同期完成的650亿Series H达到9650亿估值,再加上GitHub Copilot已经渗透1.77亿开发者——这三个数字同时存在,说明AI编程工具市场不是一个「单一战场」的竞争,而是一次多层次的同步分层定格。
在「铁路时代」,基础设施投资(铺轨)和应用投资(火车票)是两类完全不同的资产。今天的AI编程工具市场也是如此——代码补全(Copilot层)已经是「基础设施」,正在向commodity化演进;任务代理(Devin层)是「应用层」,正在经历高增速定价期;系统级自主(尚未存在的第三层)是「未来的基础设施」,现在的每一笔投资都是在为那个时代抢占入场券。
对于企业CTO来说,这意味着:现在对AI编程工具的选型,不只是选择「今天最好用的工具」,而是在选择「与哪家公司的能力路线图绑定」。
Cognition的260亿估值买的是什么?是Devin今天的产品,加上Cognition未来把这条路线图走到底的「路径选项权」。
这才是这一轮估值背后真正的逻辑。
对工程师、CTO和投资人的实际含义
这个故事对不同角色有不同的含义:
对软件工程师
这不是「明天你会失业」的信号,而是「你的工作内容正在重新定义」的信号。当89%的代码可以由AI写,工程师的核心价值不再是写代码的速度,而是判断「写什么」、「为什么这样写」、以及「AI写的这段代码在整个系统里是否正确」。
这些能力,今天被大量工程师低估,未来将成为稀缺。真正值得焦虑的不是被AI取代,而是没有提前培养这些判断层面的能力。
对CTO和技术负责人
现在是开始认真评估「AI编程代理在团队工作流中的实际位置」的时候了。这不是作为试验项目,而是作为可能影响团队规模、技术选型、以及工程效率基准的战略决策。
推荐的实验路径:找一个边界清晰的内部项目,让Devin或同类工具全程主导,团队负责审核——不只是评估效率提升,也是评估质量、合规和工作流适配性。
对投资人
Cognition的Series D告诉市场,AI编程代理这个品类已经脱离「早期实验」阶段,进入了「规模化商业化」的起点。260亿估值是这一判断的市场定价。
下一个关键数据点,是Devin的年化收入何时透明化,以及真实企业部署中89%的任务完成率是否能在多样化场景下维持。
结语:11%的护城河
89%之后,最值得思考的不是「AI会不会继续进步到99%」,而是:那剩下的11%,究竟是什么?
从Devin的使用案例来看,那11%大约是:不知道「写什么」的决策(产品方向、架构选择)、无法规格化的创意判断(如何让用户体验更优雅)、以及当AI方案出错时的「问题识别」能力(发现AI没有发现的问题)。
这些能力的共同点是:它们不是「更快写更多代码」,而是「知道应该做什么,以及判断做完是否正确」。这是人类高阶认知的核心,也是AI目前最难复制的能力边界。
所以,89%不是程序员的末日,而是程序员职业的一次深度重塑——从「代码生产者」到「方向设定者和质量把关者」。那些今天开始强化这11%能力的工程师,会在明天的市场里找到自己的位置。
那些还在用「AI威胁论」或「AI只是工具」的二元框架思考这个问题的工程师——无论哪个极端——都可能在这个重塑中措手不及。
Scott Wu把这个转变叫做「认知卸载」。我更愿意把它叫做:程序员职业的第二次进化。第一次是从汇编语言到高级编程语言,程序员从「机器语言翻译者」进化为「问题解决者」。第二次是从「代码书写者」进化为「AI任务指挥者和判断者」。
89%只是开始。这次进化,已经在发生了。
参考资料
- Cognition’s Scott Wu says AI coding agents shouldn’t replace humans — TechCrunch, 2026-05-29
- Claude Code introduces dynamic workflows for complex engineering tasks — Anthropic Claude Blog, 2026-05-28
- Introducing Claude Opus 4.8 — Anthropic Official, 2026-05-28
- Anthropic releases Opus 4.8 with new dynamic workflow tool — TechCrunch, 2026-05-28