HR经理的编程成功率追平了工程师:Anthropic 40万次会话数据重写了AI编程的故事
HR经理的编程成功率追平了工程师:Anthropic 40万次会话数据重写了AI编程的故事
2026年6月16日,Anthropic发布了一份研究报告,标题低调:《Agentic coding and persistent returns to expertise》(代理编程与持续存在的专业知识回报)。
但它的内容,与AI行业通常发布的那类研究——”我们的模型在这些基准上比竞品高X分”——有着根本性的不同。
这份报告基于真实用户数据:2025年10月至2026年4月,约400,000个Claude Code交互会话,涉及约235,000名独立用户。分析通过Anthropic的CLIO(隐私保护大规模洞察优化)框架处理,确保不暴露个人身份信息。
研究问的不是”模型有多强”,而是”真实的人用AI工具写代码,实际发生了什么”。
这个问题的答案,打破了AI圈内外对AI编程工具的三个主流假设。但在此之前,让我们先理解这份研究的背景:它是目前为止关于AI编程工具真实使用模式规模最大的分析之一,也是少数能够同时提供大规模数据、真实使用场景和隐私保护三者兼顾的AI研究。这不只是Anthropic的公司数据,更是整个AI编程工具生态在这个时间节点的一个重要截面。
数字背后的背景:为什么这份报告值得认真对待
在进入三个被推翻的假设之前,有必要先说说为什么这份数据比大多数AI研究更值得认真对待。
规模和真实性
400,000个会话不是一个小数字。这相当于235,000名用户在7个月内的真实工作记录。它不是Anthropic工程师的内部测试,不是精心设计的演示场景,也不是人工标注的评测集——它是真实的人在真实的工作环境中,面对真实的问题,使用Claude Code时留下的交互轨迹。
这个”真实性”,在AI研究中是稀缺的。学术界的AI编程研究通常依赖HumanEval、Codex等标准化基准,这些基准有价值,但它们测量的是模型在受控场景下的能力,而不是人类和AI协作的真实生态。Anthropic这份报告填补的,恰好是后者。
研究方法的创新
CLIO(Counterfactual Language Insight and Optimization)框架,是这份研究的方法论核心。简单说,它是一套在保护用户隐私的前提下,对大规模对话数据进行统计分析的工具链。具体做法是:在数据处理管道中插入多层隐私过滤,让分析结果在统计层面有意义,但无法追溯到任何具体用户的具体操作。
Anthropic在2025年就发表了CLIO的方法论论文,这份报告是它的第二次大规模实际应用(第一次是”AI如何改变Anthropic内部工作”的研究)。从技术上看,CLIO的可靠性已经过同行评审,数据处理结论有据可查,不是”相信我们没有滥用用户数据”的口头承诺。
背景数据:Claude Code的使用规模
报告附带了一个重要的背景数字:Claude Code用户平均每周使用该工具约20小时。
这不是”偶尔尝鲜”的使用频率,而是深度嵌入工作流的频率。每周20小时,意味着每天约4小时,接近半个工作日。在一个工具用到这个频率的人群里,他们的使用数据才真正反映了AI编程工具的实际能力边界——而不是初次接触时的新鲜感或随机探索。
此外,另一个背景数据:自2025年底以来,GitHub上有编程代理活动的项目比例翻了一番以上。这意味着Anthropic看到的,不是一个小众用户群体的使用模式,而是一个快速扩张的、正在重塑开发者工作流的新常态。
有了这个背景,让我们来看三个被推翻的假设。
假设一被推翻:「AI编程工具主要帮助初学者入门」
这是AI工具市场最常见的叙事之一:AI降低了技术门槛,让不会编程的人也能写代码,让初学者比以前更快上手,民主化了软件开发能力。
这个叙事在营销层面非常有吸引力,也有一定的真实性。但Anthropic的数据讲述了一个更复杂、也更有意思的故事。
成功率的真相
研究将”成功”定义为:会话结束时有可验证成果,包括通过了单元测试、提交了有效代码、完成了数据分析任务——这些都是可以客观检验的结果,而不是”用户感觉满意”这类主观指标。
在这个指标上,报告的核心发现是:人力资源经理、市场运营人员、财务分析师用Claude Code完成编程任务的成功率,几乎与专业软件工程师持平。所有主要职业类别都能成功——这是报告中最具冲击力的单一数据点。
这对”AI主要帮助初学者”的叙事是一个挑战:如果真是这样,我们预期应该看到初学者的成功率大幅提升、接近专家,但专家用户本身成功率并没有显著提高——因为他们本来就会写代码。
但实际数据不是这个图景。数据说的是:各类职业的非工程师用户,在使用AI工具时,成功率本身就接近专业工程师了。这说明门槛降低是真实的,但它降低的方式,不是”让初学者更容易入门”,而是”让懂得问对问题的人可以越过技术执行层”。
专家杠杆效应的同时存在
然而,报告的另一面同样清晰:领域专业知识越深,成功率越高;专家用户每条指令触发的Claude操作数也更多。
研究把用户领域专业知识分为五个等级(从新手到专家),发现新手和专家在成功率上有明显差距——但中级用户和专家用户之间的差距却相当小。这是一个”阈值效应”:在某个专业程度以上,你对领域问题有足够深的理解,就足以几乎和最顶尖的专家一样有效地使用这个工具。
这个发现打破了一个二元对立:不是”专家受益 vs 初学者受益”,而是”达到领域理解阈值的人都能有效使用”。这个阈值,比以前的编程门槛更容易达到——因为它不要求你懂语法和算法,而是要求你懂问题的本质。
重新定义「编程门槛」
旧的编程门槛是:知道如何写代码——语法、数据结构、算法、调试技巧。这套知识需要数年积累,形成了真实的技术护城河。
新的编程门槛正在变成:知道你想构建什么——对问题域的深刻理解、对目标的清晰定义、对AI输出好坏的判断能力。这套能力,有时候是领域专家(HR、法律、医学、财务)天然拥有的,因为他们懂自己领域的问题和答案。
从”会写代码”到”会定义问题”,这个边界的移动,不是让编程变得更简单,而是让编程变得更不一样。对于HR经理来说,他们不是学会了编程,而是他们的领域知识终于可以直接驱动工具了,不再需要经过”翻译成代码”这个中间环节。
这是一个深刻的转变,它的影响远不只是”谁能用Claude Code”,而是”什么类型的专业知识在软件构建中变得核心”。
假设二被推翻:「AI编程工具主要处理简单重复任务」
另一个常见假设是:AI工具适合自动化低价值的重复性任务(比如写boilerplate代码、生成测试用例),但复杂的、创造性的、高价值的工作仍然依赖人类工程师。这个假设在AI工具的早期确实相对准确——当时的工具能力也确实有限。
但Anthropic的7个月纵向数据显示,情况正在快速变化。
调试任务比例减少近一半
在2025年10月到2026年4月的7个月间,调试任务占总会话的比例减少了将近一半。
调试在很多人眼中是技术含量的象征——找到那个隐藏的bug,理解为什么代码没有按预期执行,这需要深度的系统知识和经验积累,是”资深工程师vs初级工程师”差距的核心体现之一。
但数据说的是:用户越来越少地使用Claude Code进行调试。两种解释都说得通:一是随着AI辅助写代码变得更普遍,AI生成的代码质量在提升,产生的bug在减少;二是当调试也可以高效地交给Claude处理时,用户把这个环节直接内嵌进Claude交互里,不再单独计算为”调试会话”了。两种情况下的结果相同:调试作为独立、高占比的工作环节,正在消退。
使用向端到端任务转移
与调试任务减少对应的,是Claude Code使用越来越多地转向端到端的完整任务:部署和运行代码(17%)、分析数据和创作非代码文档(13%),以及规划和探索(14%)。
研究对Claude Code的九种”工作模式”进行了分类:
- 写代码(25%):构建新功能
- 修代码(26%):修复问题
- 测试和编排(5%):测试和流程自动化
- 运行软件(17%):部署、配置、监控
- 规划/探索(14%):理解现有系统、规划变更
- 分析/写作(13%):数据分析、文档、演示
最核心的观察:在这7个月中,”运行软件”和”分析/写作”这两类占比在增长,这两类的共同特点是:它们是端到端的完整工作,而不是代码层面的局部操作。
端到端任务意味着什么?它意味着用户不再只是把某个具体环节交给AI,而是把整个工作流的某个完整片段托付给AI。”帮我部署这个服务”、”分析这份数据并告诉我洞察”、”把这个需求写成技术方案”——这些都是端到端的指令,背后隐含了多步骤、多决策点的复杂任务链。
这是一个显著的信任度提升——不只是”帮我补全这段代码”,而是”把这件事从头到尾做完”。
任务价值平均提升约25%
研究通过与自由职业岗位发布的对比,估算了Claude Code完成的典型任务的市场价值——同等任务在Upwork、Freelancer等平台上的标价。在这7个月间,估算价值平均提升了约25%。
几乎所有工作类别都看到了这个增长趋势,包括:构建新功能(建筑/工程类岗位对应)、数据分析(数据分析类岗位对应)、文档写作(技术写作类岗位对应)。
任务价值提升25%意味着:AI工具正在被用于处理越来越高价值的工作场景。不只是低价值的代码补全,而是更接近”高级工程师会处理的任务”的复杂工作。这与”AI只处理简单任务”的假设直接矛盾。
假设三被推翻:「AI正在使工程师变得可有可无」
第三个假设——在AI末日论者和AI乐观主义者两个阵营都有拥趸——是:随着AI编程能力提升,对人类工程师的需求将系统性减少,要么被替代,要么降级成”AI监工”角色。
Anthropic的数据提供了一个更细致的图景,不是驳斥这个担忧,而是精确化它。
人在做什么,AI在做什么
研究从”决策权分配”的角度分析了人与AI的协作模式。分析区分了两类决策:
- 规划决策:做什么、采用哪个方案、什么算完成——定义目标和方法
- 执行决策:修改哪个文件、怎么写代码、运行什么命令——具体操作
结果是清晰的:用户承担了约70%的规划决策,Claude承担了约80%的执行决策。
用更通俗的话说:人决定做什么,AI决定怎么做。
这是基于40万个会话的统计规律,不是少数用户的偶然行为,也不是Anthropic刻意设计的限制,而是人与AI在真实使用中自然形成的分工模式。
规模与效率数字
一个典型的Claude Code会话大约有4次来回交互(用户提示-Claude响应的轮次)。每次用户的提示之后,Claude平均执行约10个操作——读取文件、修改代码、运行命令、输出结果。每次交互中,Claude平均输出约2,400个词的内容。
极端情况下,Claude每轮可以执行超过100个操作——这意味着一条提示可以触发Claude自主完成100个具体步骤,用户在最终看到结果之前什么都不需要做。
这在几年前是不可想象的。但”自主完成100个步骤”和”取代工程师”不是同一件事,因为这100个步骤的方向,仍然由人的规划决策决定。
谁决定”够好了”
研究中最有意思的一个细节是:”什么算完成”这个决策,绝大多数情况下由用户来判断。
这不是一个可以被简单自动化的决策。它包含了:这个代码符合业务需求吗?这个分析结论是准确的吗?这个文档的表达方式适合受众吗?这些问题,即使在Claude能够完成所有执行操作的情况下,仍然需要人来回答——因为它们涉及到对最终用途、用户需求和价值标准的判断,这些都不编码在代码里,也不在AI的训练数据里。
什么时候AI做更多
当用户让Claude主导规划(Claude做超过80%的规划决策),Claude每次执行约16个操作,而不是10个。
这说明:如果用户放弃对规划的控制权,AI会做更多。但从成功率数据看,这种”全交给AI”的模式,成功率反而低于用户主导规划的模式——人的领域判断被移除时,会话成功率下降。
这是一个关于人机协作最优点的重要发现:不是”人控制得越多越好”,也不是”交给AI越多越好”,而是有一个最优的分工点——人管方向,AI管执行,两者合作的效率高于任一方单独操作。
真正值得关注的劳动力市场信号
报告明确说:Claude Code的数据,可能是知识工作未来走向的预演。
如果AI辅助编程的模式——人主导规划,AI主导执行——扩散到更广泛的知识工作领域,那么劳动力市场最值得注意的不是”哪些工作消失了”,而是”哪类能力变得更值钱了”。
编程门槛向下移,领域知识价值向上移
在编程任务上,Anthropic数据的核心含义是:会”解决问题”的能力(领域知识 + 问题定义 + 目标设定),比会”执行操作”的能力(写代码、调试、优化)产生了更高的杠杆效应。
这意味着知识工作的价值重心正在移动。HR经理不需要学Python,但她需要深度理解她的领域问题——哪些招聘流程低效、如何用数据识别候选人匹配度、什么指标最能预测员工留任率。有了这些知识,她可以让Claude Code把它们转化成可运行的工具。
这个逻辑如果成立,那对知识工作者的建议就不是”学更多工具技能”,而是”深化领域专业知识”。工具会变,但懂问题本质的能力是迁移性的。
但这个结论是有条件的
“专家受益更多”有其暗面:中低技能的工人,与专家的差距可能被AI放大。如果入门级的执行工作被自动化,而高层级的判断工作仍然需要专家,那么人才市场的两极化可能加剧——专家更值钱,初级工更难找到立足点。
报告本身没有足够的数据支持这个宏观结论,但它是正确理解这份研究时需要一并放进来的背景问题。一份告诉你”所有职业都能成功”的数据,放在更大的经济背景下,仍然需要问:这些”成功”是在替代什么原来的工作?那些原来做这些工作的人去哪儿了?
速度问题:7个月的变化速率
任务价值在7个月内提升25%,调试时间减少近一半,端到端任务占比增加——这些变化发生在7个月里,不是7年。
如果这个速率持续,变化积累的速度将超过劳动力市场的适应速度。人们通常以为转型会缓慢发生、留出足够的适应时间。但技术采用的历史告诉我们,当某个工具的效率提升超过一定阈值,采用速度可以非常快。GitHub Copilot从发布到被大型企业广泛采用,不过2年时间。Claude Code从发布到用户每周使用20小时,也是类似的时间尺度。
另一面声音:为什么这份研究不是最终答案
公平起见,我们需要呈现对这份研究的合理质疑——不是否定其发现,而是理解其局限性。
数据来源的偏差:参与这份研究的235,000名用户,是真实的Claude Code用户——他们本身已经是”选择使用AI工具”的人。他们不代表所有知识工作者,也不代表那些被AI工具效率提升的压力影响、但本身没有使用工具的工人。研究能告诉我们”使用者的体验”,但不能告诉我们”整个劳动力市场的结构变化”。
“成功率相近”的真实含义:HR经理成功率接近软件工程师,听起来是技能平权的好消息。但这里的”成功”,是在Claude Code辅助下、在两者都使用工具的前提下比较的。问题是:如果把工具移除,差距会怎样?还有,这里的”成功”是完成具体任务,不是工作质量、架构合理性、长期可维护性的全面评估——后者这些,目前还没有系统性数据。
短期数据不预测长期轨迹:7个月内调试时间减少一半,这是真实趋势。但我们不知道这个趋势在未来是否持续、加速还是触及天花板。Anthropic本身也承认,今天的数据是”早期信号”而非”最终定论”。
研究机构的利益立场:这份研究由Anthropic发布——Claude Code的开发商。Anthropic有动机展示其工具的积极影响,尽管使用CLIO框架增加了方法透明度。理想情况下,这类研究应该有独立第三方的复现和验证。
这些不是否定这份研究价值的理由,而是理性阅读任何单一来源研究时应保持的认识论谨慎。
结语:这份数据是一面镜子,还是一个预告片
Anthropic这份报告的价值,在于它问了一个正确的问题,并用迄今为止最真实的数据提供了早期答案。
镜子里照出的是:40万个真实会话里,人和AI合作写代码时,实际发生的模式是什么。HR经理追平工程师成功率、调试时间减半、任务价值提升25%、专家获得更大杠杆——这些发现都是真实的,都有可查证的数据来源。
但镜子还在移动。这份研究覆盖了2025年10月到2026年4月,而AI能力本身在这7个月里也在快速变化。今天的”平衡点”——人管规划,AI管执行——可能在未来的某个版本迭代后被打破。今天的”杠杆效应”,在AI能力足够强大时,可能演变为”替代效应”。
对于2026年的知识工作者来说,这份数据最有用的提示是:
你今天的竞争优势建立在领域判断还是操作执行上?如果是后者,调试时间减半、端到端任务增加的趋势,是一个信号——不是今天的危机,但是明天的预告片。如果是前者,数据说的是:你的领域深度正在变得更有价值,因为它决定了你能从AI工具里提取多少真正的杠杆。
400,000次编程会话,留下的不只是关于Claude Code的数据。它是一份关于「谁能写代码」这个古老问题,在AI时代开始得出新答案的早期证据。这个问题的完整答案,还需要更多的时间、更多的数据和更多的讨论才能清晰。但今天,这份研究为这个讨论提供了一个至今最有分量的数据锚点。
参考资料
-
Anthropic Research — Agentic coding and persistent returns to expertise, 2026年6月16日. https://www.anthropic.com/research/claude-code-expertise
-
Anthropic Research — Measuring agent autonomy in Claude Code, 2025. https://www.anthropic.com/research/measuring-agent-autonomy
-
Anthropic Research — CLIO: Privacy-preserving insights into real-world AI use, 2025. https://www.anthropic.com/research/clio
-
Anthropic Research — How Claude Code is transforming work at Anthropic, 2026. https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
-
METR — Time-horizon evaluations for frontier AI models, 2026. https://metr.org/time-horizons/