HR经理的编程成功率追平了工程师：Anthropic 40万次会话数据重写了AI编程的故事

2026年6月16日，Anthropic发布了一份研究报告，标题低调：《Agentic coding and persistent returns to expertise》（代理编程与持续存在的专业知识回报）。

但它的内容，与AI行业通常发布的那类研究——”我们的模型在这些基准上比竞品高X分”——有着根本性的不同。

这份报告基于真实用户数据：2025年10月至2026年4月，约400,000个Claude Code交互会话，涉及约235,000名独立用户。分析通过Anthropic的CLIO（隐私保护大规模洞察优化）框架处理，确保不暴露个人身份信息。

研究问的不是”模型有多强”，而是”真实的人用AI工具写代码，实际发生了什么”。

这个问题的答案，打破了AI圈内外对AI编程工具的三个主流假设。但在此之前，让我们先理解这份研究的背景：它是目前为止关于AI编程工具真实使用模式规模最大的分析之一，也是少数能够同时提供大规模数据、真实使用场景和隐私保护三者兼顾的AI研究。这不只是Anthropic的公司数据，更是整个AI编程工具生态在这个时间节点的一个重要截面。

数字背后的背景：为什么这份报告值得认真对待

在进入三个被推翻的假设之前，有必要先说说为什么这份数据比大多数AI研究更值得认真对待。

规模和真实性

400,000个会话不是一个小数字。这相当于235,000名用户在7个月内的真实工作记录。它不是Anthropic工程师的内部测试，不是精心设计的演示场景，也不是人工标注的评测集——它是真实的人在真实的工作环境中，面对真实的问题，使用Claude Code时留下的交互轨迹。

这个”真实性”，在AI研究中是稀缺的。学术界的AI编程研究通常依赖HumanEval、Codex等标准化基准，这些基准有价值，但它们测量的是模型在受控场景下的能力，而不是人类和AI协作的真实生态。Anthropic这份报告填补的，恰好是后者。

研究方法的创新

CLIO（Counterfactual Language Insight and Optimization）框架，是这份研究的方法论核心。简单说，它是一套在保护用户隐私的前提下，对大规模对话数据进行统计分析的工具链。具体做法是：在数据处理管道中插入多层隐私过滤，让分析结果在统计层面有意义，但无法追溯到任何具体用户的具体操作。

Anthropic在2025年就发表了CLIO的方法论论文，这份报告是它的第二次大规模实际应用（第一次是”AI如何改变Anthropic内部工作”的研究）。从技术上看，CLIO的可靠性已经过同行评审，数据处理结论有据可查，不是”相信我们没有滥用用户数据”的口头承诺。

背景数据：Claude Code的使用规模

报告附带了一个重要的背景数字：Claude Code用户平均每周使用该工具约20小时。

这不是”偶尔尝鲜”的使用频率，而是深度嵌入工作流的频率。每周20小时，意味着每天约4小时，接近半个工作日。在一个工具用到这个频率的人群里，他们的使用数据才真正反映了AI编程工具的实际能力边界——而不是初次接触时的新鲜感或随机探索。

此外，另一个背景数据：自2025年底以来，GitHub上有编程代理活动的项目比例翻了一番以上。这意味着Anthropic看到的，不是一个小众用户群体的使用模式，而是一个快速扩张的、正在重塑开发者工作流的新常态。

有了这个背景，让我们来看三个被推翻的假设。

假设一被推翻：「AI编程工具主要帮助初学者入门」

这是AI工具市场最常见的叙事之一：AI降低了技术门槛，让不会编程的人也能写代码，让初学者比以前更快上手，民主化了软件开发能力。

这个叙事在营销层面非常有吸引力，也有一定的真实性。但Anthropic的数据讲述了一个更复杂、也更有意思的故事。

成功率的真相

研究将”成功”定义为：会话结束时有可验证成果，包括通过了单元测试、提交了有效代码、完成了数据分析任务——这些都是可以客观检验的结果，而不是”用户感觉满意”这类主观指标。

在这个指标上，报告的核心发现是：人力资源经理、市场运营人员、财务分析师用Claude Code完成编程任务的成功率，几乎与专业软件工程师持平。所有主要职业类别都能成功——这是报告中最具冲击力的单一数据点。

这对”AI主要帮助初学者”的叙事是一个挑战：如果真是这样，我们预期应该看到初学者的成功率大幅提升、接近专家，但专家用户本身成功率并没有显著提高——因为他们本来就会写代码。

但实际数据不是这个图景。数据说的是：各类职业的非工程师用户，在使用AI工具时，成功率本身就接近专业工程师了。这说明门槛降低是真实的，但它降低的方式，不是”让初学者更容易入门”，而是”让懂得问对问题的人可以越过技术执行层”。

专家杠杆效应的同时存在

然而，报告的另一面同样清晰：领域专业知识越深，成功率越高；专家用户每条指令触发的Claude操作数也更多。

研究把用户领域专业知识分为五个等级（从新手到专家），发现新手和专家在成功率上有明显差距——但中级用户和专家用户之间的差距却相当小。这是一个”阈值效应”：在某个专业程度以上，你对领域问题有足够深的理解，就足以几乎和最顶尖的专家一样有效地使用这个工具。

这个发现打破了一个二元对立：不是”专家受益 vs 初学者受益”，而是”达到领域理解阈值的人都能有效使用”。这个阈值，比以前的编程门槛更容易达到——因为它不要求你懂语法和算法，而是要求你懂问题的本质。

重新定义「编程门槛」

旧的编程门槛是：知道如何写代码——语法、数据结构、算法、调试技巧。这套知识需要数年积累，形成了真实的技术护城河。

新的编程门槛正在变成：知道你想构建什么——对问题域的深刻理解、对目标的清晰定义、对AI输出好坏的判断能力。这套能力，有时候是领域专家（HR、法律、医学、财务）天然拥有的，因为他们懂自己领域的问题和答案。

从”会写代码”到”会定义问题”，这个边界的移动，不是让编程变得更简单，而是让编程变得更不一样。对于HR经理来说，他们不是学会了编程，而是他们的领域知识终于可以直接驱动工具了，不再需要经过”翻译成代码”这个中间环节。

这是一个深刻的转变，它的影响远不只是”谁能用Claude Code”，而是”什么类型的专业知识在软件构建中变得核心”。

假设二被推翻：「AI编程工具主要处理简单重复任务」

另一个常见假设是：AI工具适合自动化低价值的重复性任务（比如写boilerplate代码、生成测试用例），但复杂的、创造性的、高价值的工作仍然依赖人类工程师。这个假设在AI工具的早期确实相对准确——当时的工具能力也确实有限。

但Anthropic的7个月纵向数据显示，情况正在快速变化。

调试任务比例减少近一半

在2025年10月到2026年4月的7个月间，调试任务占总会话的比例减少了将近一半。

调试在很多人眼中是技术含量的象征——找到那个隐藏的bug，理解为什么代码没有按预期执行，这需要深度的系统知识和经验积累，是”资深工程师vs初级工程师”差距的核心体现之一。

但数据说的是：用户越来越少地使用Claude Code进行调试。两种解释都说得通：一是随着AI辅助写代码变得更普遍，AI生成的代码质量在提升，产生的bug在减少；二是当调试也可以高效地交给Claude处理时，用户把这个环节直接内嵌进Claude交互里，不再单独计算为”调试会话”了。两种情况下的结果相同：调试作为独立、高占比的工作环节，正在消退。

使用向端到端任务转移

与调试任务减少对应的，是Claude Code使用越来越多地转向端到端的完整任务：部署和运行代码（17%）、分析数据和创作非代码文档（13%），以及规划和探索（14%）。

研究对Claude Code的九种”工作模式”进行了分类：

写代码（25%）：构建新功能
修代码（26%）：修复问题
测试和编排（5%）：测试和流程自动化
运行软件（17%）：部署、配置、监控
规划/探索（14%）：理解现有系统、规划变更
分析/写作（13%）：数据分析、文档、演示

最核心的观察：在这7个月中，”运行软件”和”分析/写作”这两类占比在增长，这两类的共同特点是：它们是端到端的完整工作，而不是代码层面的局部操作。

端到端任务意味着什么？它意味着用户不再只是把某个具体环节交给AI，而是把整个工作流的某个完整片段托付给AI。”帮我部署这个服务”、”分析这份数据并告诉我洞察”、”把这个需求写成技术方案”——这些都是端到端的指令，背后隐含了多步骤、多决策点的复杂任务链。

这是一个显著的信任度提升——不只是”帮我补全这段代码”，而是”把这件事从头到尾做完”。

任务价值平均提升约25%

研究通过与自由职业岗位发布的对比，估算了Claude Code完成的典型任务的市场价值——同等任务在Upwork、Freelancer等平台上的标价。在这7个月间，估算价值平均提升了约25%。

几乎所有工作类别都看到了这个增长趋势，包括：构建新功能（建筑/工程类岗位对应）、数据分析（数据分析类岗位对应）、文档写作（技术写作类岗位对应）。

任务价值提升25%意味着：AI工具正在被用于处理越来越高价值的工作场景。不只是低价值的代码补全，而是更接近”高级工程师会处理的任务”的复杂工作。这与”AI只处理简单任务”的假设直接矛盾。

假设三被推翻：「AI正在使工程师变得可有可无」

第三个假设——在AI末日论者和AI乐观主义者两个阵营都有拥趸——是：随着AI编程能力提升，对人类工程师的需求将系统性减少，要么被替代，要么降级成”AI监工”角色。

Anthropic的数据提供了一个更细致的图景，不是驳斥这个担忧，而是精确化它。

人在做什么，AI在做什么

研究从”决策权分配”的角度分析了人与AI的协作模式。分析区分了两类决策：

规划决策：做什么、采用哪个方案、什么算完成——定义目标和方法
执行决策：修改哪个文件、怎么写代码、运行什么命令——具体操作

结果是清晰的：用户承担了约70%的规划决策，Claude承担了约80%的执行决策。

用更通俗的话说：人决定做什么，AI决定怎么做。

这是基于40万个会话的统计规律，不是少数用户的偶然行为，也不是Anthropic刻意设计的限制，而是人与AI在真实使用中自然形成的分工模式。

规模与效率数字

一个典型的Claude Code会话大约有4次来回交互（用户提示-Claude响应的轮次）。每次用户的提示之后，Claude平均执行约10个操作——读取文件、修改代码、运行命令、输出结果。每次交互中，Claude平均输出约2,400个词的内容。

极端情况下，Claude每轮可以执行超过100个操作——这意味着一条提示可以触发Claude自主完成100个具体步骤，用户在最终看到结果之前什么都不需要做。

这在几年前是不可想象的。但”自主完成100个步骤”和”取代工程师”不是同一件事，因为这100个步骤的方向，仍然由人的规划决策决定。

谁决定”够好了”

研究中最有意思的一个细节是：”什么算完成”这个决策，绝大多数情况下由用户来判断。

这不是一个可以被简单自动化的决策。它包含了：这个代码符合业务需求吗？这个分析结论是准确的吗？这个文档的表达方式适合受众吗？这些问题，即使在Claude能够完成所有执行操作的情况下，仍然需要人来回答——因为它们涉及到对最终用途、用户需求和价值标准的判断，这些都不编码在代码里，也不在AI的训练数据里。

什么时候AI做更多

当用户让Claude主导规划（Claude做超过80%的规划决策），Claude每次执行约16个操作，而不是10个。

这说明：如果用户放弃对规划的控制权，AI会做更多。但从成功率数据看，这种”全交给AI”的模式，成功率反而低于用户主导规划的模式——人的领域判断被移除时，会话成功率下降。

这是一个关于人机协作最优点的重要发现：不是”人控制得越多越好”，也不是”交给AI越多越好”，而是有一个最优的分工点——人管方向，AI管执行，两者合作的效率高于任一方单独操作。

真正值得关注的劳动力市场信号

报告明确说：Claude Code的数据，可能是知识工作未来走向的预演。

如果AI辅助编程的模式——人主导规划，AI主导执行——扩散到更广泛的知识工作领域，那么劳动力市场最值得注意的不是”哪些工作消失了”，而是”哪类能力变得更值钱了”。

编程门槛向下移，领域知识价值向上移

在编程任务上，Anthropic数据的核心含义是：会”解决问题”的能力（领域知识 + 问题定义 + 目标设定），比会”执行操作”的能力（写代码、调试、优化）产生了更高的杠杆效应。

这意味着知识工作的价值重心正在移动。HR经理不需要学Python，但她需要深度理解她的领域问题——哪些招聘流程低效、如何用数据识别候选人匹配度、什么指标最能预测员工留任率。有了这些知识，她可以让Claude Code把它们转化成可运行的工具。

这个逻辑如果成立，那对知识工作者的建议就不是”学更多工具技能”，而是”深化领域专业知识”。工具会变，但懂问题本质的能力是迁移性的。

但这个结论是有条件的

“专家受益更多”有其暗面：中低技能的工人，与专家的差距可能被AI放大。如果入门级的执行工作被自动化，而高层级的判断工作仍然需要专家，那么人才市场的两极化可能加剧——专家更值钱，初级工更难找到立足点。

报告本身没有足够的数据支持这个宏观结论，但它是正确理解这份研究时需要一并放进来的背景问题。一份告诉你”所有职业都能成功”的数据，放在更大的经济背景下，仍然需要问：这些”成功”是在替代什么原来的工作？那些原来做这些工作的人去哪儿了？

速度问题：7个月的变化速率

任务价值在7个月内提升25%，调试时间减少近一半，端到端任务占比增加——这些变化发生在7个月里，不是7年。

如果这个速率持续，变化积累的速度将超过劳动力市场的适应速度。人们通常以为转型会缓慢发生、留出足够的适应时间。但技术采用的历史告诉我们，当某个工具的效率提升超过一定阈值，采用速度可以非常快。GitHub Copilot从发布到被大型企业广泛采用，不过2年时间。Claude Code从发布到用户每周使用20小时，也是类似的时间尺度。

另一面声音：为什么这份研究不是最终答案

公平起见，我们需要呈现对这份研究的合理质疑——不是否定其发现，而是理解其局限性。

数据来源的偏差：参与这份研究的235,000名用户，是真实的Claude Code用户——他们本身已经是”选择使用AI工具”的人。他们不代表所有知识工作者，也不代表那些被AI工具效率提升的压力影响、但本身没有使用工具的工人。研究能告诉我们”使用者的体验”，但不能告诉我们”整个劳动力市场的结构变化”。

“成功率相近”的真实含义：HR经理成功率接近软件工程师，听起来是技能平权的好消息。但这里的”成功”，是在Claude Code辅助下、在两者都使用工具的前提下比较的。问题是：如果把工具移除，差距会怎样？还有，这里的”成功”是完成具体任务，不是工作质量、架构合理性、长期可维护性的全面评估——后者这些，目前还没有系统性数据。

短期数据不预测长期轨迹：7个月内调试时间减少一半，这是真实趋势。但我们不知道这个趋势在未来是否持续、加速还是触及天花板。Anthropic本身也承认，今天的数据是”早期信号”而非”最终定论”。

研究机构的利益立场：这份研究由Anthropic发布——Claude Code的开发商。Anthropic有动机展示其工具的积极影响，尽管使用CLIO框架增加了方法透明度。理想情况下，这类研究应该有独立第三方的复现和验证。

这些不是否定这份研究价值的理由，而是理性阅读任何单一来源研究时应保持的认识论谨慎。

结语：这份数据是一面镜子，还是一个预告片

Anthropic这份报告的价值，在于它问了一个正确的问题，并用迄今为止最真实的数据提供了早期答案。

镜子里照出的是：40万个真实会话里，人和AI合作写代码时，实际发生的模式是什么。HR经理追平工程师成功率、调试时间减半、任务价值提升25%、专家获得更大杠杆——这些发现都是真实的，都有可查证的数据来源。

但镜子还在移动。这份研究覆盖了2025年10月到2026年4月，而AI能力本身在这7个月里也在快速变化。今天的”平衡点”——人管规划，AI管执行——可能在未来的某个版本迭代后被打破。今天的”杠杆效应”，在AI能力足够强大时，可能演变为”替代效应”。

对于2026年的知识工作者来说，这份数据最有用的提示是：

你今天的竞争优势建立在领域判断还是操作执行上？如果是后者，调试时间减半、端到端任务增加的趋势，是一个信号——不是今天的危机，但是明天的预告片。如果是前者，数据说的是：你的领域深度正在变得更有价值，因为它决定了你能从AI工具里提取多少真正的杠杆。

400,000次编程会话，留下的不只是关于Claude Code的数据。它是一份关于「谁能写代码」这个古老问题，在AI时代开始得出新答案的早期证据。这个问题的完整答案，还需要更多的时间、更多的数据和更多的讨论才能清晰。但今天，这份研究为这个讨论提供了一个至今最有分量的数据锚点。

参考资料

Anthropic Research — Agentic coding and persistent returns to expertise, 2026年6月16日. https://www.anthropic.com/research/claude-code-expertise
Anthropic Research — Measuring agent autonomy in Claude Code, 2025. https://www.anthropic.com/research/measuring-agent-autonomy
Anthropic Research — CLIO: Privacy-preserving insights into real-world AI use, 2025. https://www.anthropic.com/research/clio
Anthropic Research — How Claude Code is transforming work at Anthropic, 2026. https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
METR — Time-horizon evaluations for frontier AI models, 2026. https://metr.org/time-horizons/

HR经理的编程成功率追平了工程师：Anthropic 40万次会话数据重写了AI编程的故事

HR经理的编程成功率追平了工程师：Anthropic 40万次会话数据重写了AI编程的故事

数字背后的背景：为什么这份报告值得认真对待

假设一被推翻：「AI编程工具主要帮助初学者入门」

假设二被推翻：「AI编程工具主要处理简单重复任务」

假设三被推翻：「AI正在使工程师变得可有可无」

真正值得关注的劳动力市场信号

另一面声音：为什么这份研究不是最终答案

结语：这份数据是一面镜子，还是一个预告片

参考资料

Tags:

About

Categories

Recent Posts

Resources