Netflix不写代码了?3000名工程师用Claude,他们学到了一件事:AI成熟不是工具问题
2026年5月6日,旧金山,Anthropic举办了第一届”Code with Claude”开发者大会。
大会没有发布新模型。首席产品官Ami Vora在开场时直说了:”今天不会有新模型。今天是讲我们的产品怎么为你们工作得更好。”
台下坐着的是开发者,而不是媒体记者。这个选择本身就说明了一件事:Anthropic认为,告诉开发者如何更好地使用它的产品,现在和发布新模型一样重要,甚至更重要。
一、数字先说话:API流量17倍,意味着什么
大会上出现的一个数字,被很多人轻轻略过,但它值得停下来想一想。
“Anthropic平台的API流量,过去一年增长了17倍。”
这不是模型能力的进步,而是使用量的增长。17倍意味着,2026年5月的某一天,通过Anthropic API产生的调用量,是2025年5月同一天的17倍。
这个数字有多重意义。
其一,大量开发者不只是在试用Claude,而是在基于Claude构建生产级应用,并且这些应用正在真实运行、持续增长。实验性的调用量不会有17倍的增长,生产流量才会。
其二,这个增速发生在整个AI行业都在快速扩张的背景下。17倍的增长不是基数效应带来的——Anthropic 2025年初的API基础已经相当可观。在高基数上实现17倍增长,说明市场份额在扩大,而不只是整体市场在增长。
其三,这个数字是Anthropic对开发者社区最有说服力的信号之一:你们构建的东西正在被使用。不是只有你们自己在调用,而是终端用户在消费你们基于Claude构建的产品。
大会主题演讲里,Anthropic分享了几个具体的企业案例来支撑这个增长数字:Stripe的工程师速度提升、Binti团队的工作方式改变、Mercado Libre旗下2.3万名工程师使用Claude Code的部署情况。但最让人印象深刻的案例,来自Netflix。
二、Netflix的成熟度模型:用AI,和真正会用AI,不是一回事
Netflix在大会上分享了他们在3000多名开发者中部署Claude Code的经验。分享的核心不是”我们节省了多少时间”,而是一个成熟度模型框架,用来区分不同层次的AI使用能力。
Netflix的成熟度框架将开发者的AI使用水平分为几个层级,核心区分点是:“使用了AI”和”真正改变了软件开发方式”是两件不同的事。
第一层,是能用。开发者能打开Claude Code,能提出问题,能接受建议,能完成基本任务。这是门槛,但不是终点。
第二层,是习惯用。开发者在日常工作中把Claude Code嵌入工作流,不再只是遇到困难时求助,而是把它作为每个开发任务的默认起点。这需要认知习惯的改变,不只是工具的安装。
第三层,也是Netflix认为最重要的一层,是真正改变了软件是如何被构建的。在这个层级,开发者不是用AI来做已有工作的更快版本,而是设计了原本不可能设计的系统、尝试了原本会因成本过高而放弃的方案、用异步多智能体工作流完成了以前需要整个团队才能做的事情。
Netflix认为,大多数企业现在停留在第一到第二层之间。他们的3000+工程师部署实验,核心目的之一,是研究如何系统性地把更多工程师推进到第三层。
这个框架值得每一个正在推进企业AI采用的组织认真对照:你们现在在哪一层?你们的工具、流程、激励机制,是在促进工程师走向第三层,还是在无意中让他们停留在第一层就满足了?
三、Dreaming:Claude第一次有了”睡眠学习”
大会上最有技术想象力的发布,是Claude Managed Agents的新功能——”Dreaming”(梦境)。
Anthropic是这样描述它的:Dreaming是一个计划性进程,它会检查你的Agent会话记录,寻找模式,提炼记忆,让你的Agent随时间自我改进。
这个定义值得和Anthropic之前的Claude Managed Agents Memory功能对比来理解,才能看清Dreaming代表了什么新的跃进。
2026年4月,Anthropic将Claude Managed Agents的持久化记忆功能推入公测。那次更新的核心是:Agent可以跨会话保持记忆——用户上次的偏好、当前项目的上下文、未完成的任务状态——不再在每次会话结束时被清空。这解决了”每次会话从零开始”的问题,让Agent有了基本的”长期记忆能力”。
但那次更新里,记忆是被动积累的:Agent做什么,记什么;用户主动设置什么,保存什么。它不会主动回顾历史会话,不会反思自己做得对不对,不会从过去的错误中总结规律并主动调整行为策略。
Dreaming是在这个基础上的一个根本升级:它引入了主动反思机制。
具体来说,Dreaming不是在会话进行时运行,而是作为计划性后台进程运行——类似于你设置了一个夜间自动运行的任务。这个进程会系统性地扫描历史会话记录,用一套由Anthropic设计的分析框架,识别以下模式:这个Agent反复在哪类步骤上出错?用户在哪类输出上反复需要修正?有没有某些决策路径明显优于其他路径但Agent没有稳定选择?
分析完成后,Dreaming生成新的结构化记忆,固化成Agent可以在下次工作时直接引用的指导原则或参数文件。演示里的descent-playbook.md就是这种自动生成的记忆产物——不是用户手动写的,而是Agent通过分析自己的历史行为、自主总结出来的操作手册。
这个机制的深层意义在于:它让Agent的能力提升变成了一个不依赖工程师干预的自动化过程。传统软件需要开发者发现bug、分析原因、修复代码、重新部署;传统AI模型需要积累标注数据、重新训练。Dreaming是一条不同的路:Agent在运行中自动识别需要改进的地方,自动生成改进方案,自动应用于下次工作。
一个具体的例子出现在演示中:一个用于无人机月面降落控制的Agent,夜间通过Dreaming自动生成了一份新的记忆文件——descent-playbook.md——里面记录了它从历史会话中总结出的降落参数调整原则和常见错误规避方法。第二天上班,Agent带着这些新记忆重新工作,犯同类错误的频率显著降低。
大会主持人西蒙·威利森(Simon Willison)在现场直播里写道:”Dreaming让Agent的能力增长从’被动使用’变成了’主动积累’,这是质的不同。”
目前Dreaming是”研究预览”阶段,需要申请访问权限,而多智能体编排和Outcomes这两个功能则已进入公开测试。Outcomes的核心是让开发者定义成功标准,Agent运行时会有独立评分器实时评估输出是否达标,如果没有则自动迭代——这本质上是把人工审查的部分环节自动化了。
这三个功能组合——Dreaming(自我改进)、Outcomes(成功标准自动评估)、多智能体编排——代表了Claude Managed Agents从”工具平台”向”自主基础设施”演进的方向。企业不再只是给Claude下达任务,而是部署一个随业务运行持续积累经验、持续改进自身的自主系统。
四、Claude Code的新形态:从CLI到桌面异步工作台
Claude Code创始人Boris Cherny在大会上演示了Claude Code桌面应用的最新能力,给出了一个关于”未来代码是怎么写的”的具体预演。
Boris的演示里,同时有多个Agent会话在并行运行:一个在开发ACME公司的退款系统(处理幂等性、多货币、合规审计日志),一个在修复API客户端的边缘案例,另一个在处理数据库迁移。用户界面里清楚地显示哪些会话需要用户输入,哪些在自主运行,哪些已完成并等待审查。
这个演示揭示了一个软件开发模式的根本转变:代码写作越来越像项目管理,而不是手工劳动。
Boris说了一句话:”今天我的很多代码是由Routines写的。”他解释,Routines是”更高阶的Prompt”——不是告诉Claude”现在做这件事”,而是告诉Claude”每当某个条件满足时,自动做这件事”。这相当于把原本需要开发者手动触发的工作流,变成了Claude自主监控并执行的持续规则。
“我们认为,未来大量代码将以异步方式生成。”Boris说。
这句话背后的含义是:工程师不再需要全程参与写代码的过程,而是负责:定义需求、审查输出、处理例外情况、优化系统设计。就像Mercado Libre的例子——他们正在推进”Q3前实现90%自主编程”的目标,意味着10个工程师负责的代码量,以前可能需要100个工程师。
Shopify也出现在Anthropic的引用案例里。Shopify CEO Tobi Lütke几个月前曾公开表示,”雇用更多工程师之前,必须证明你无法用AI做到同样的事”。这个姿态在Shopify内部产生了深远影响——工程效率的基准被重置了。
五、企业管理者重新写代码这件事
大会上,Cat Wu(Claude Code产品负责人)提到了一个让人印象深刻的现象:
“我们看到越来越多的高管和管理者重新开始写代码——因为你不再需要花大量时间才能有效地贡献代码。”
这句话背后有一个深刻的组织变化在发生。
过去二十年,企业技术组织的分工是清晰的:软件工程师写代码,产品经理定方向,管理者协调资源。这个分工有一个基础假设:写代码需要很高的时间投入,高管的时间更有价值,所以管理者不写代码是效率最优的选择。
现在这个假设在发生变化。如果用Claude Code,一个有技术背景的产品总监可以在30分钟内写出一个原本需要半天工程时间的功能原型;一个CTO可以在午饭前自己验证一个架构假设,而不是等工程师排期。
“时间门槛”降低了,”贡献代码”这件事对非全职工程师的可行性显著提升。这在组织结构上意味着什么?意味着产品决策和技术实现之间的信息损耗减少了——懂技术的人可以直接验证想法,不需要通过一个人工翻译层(”把这个需求转述给工程师”)。
对于正在思考组织效率的企业来说,这是一个值得深入研究的边际变化:当工程能力的成本结构改变,谁应该做什么、谁有能力做什么的边界,也在重新划定。
六、”我们要让最多人以最好的方式体验AI”
Ami Vora在开幕致辞里说了一句话,概括了这次大会的真正意图:
“大多数人会通过你们构建的东西来体验AI,而不是直接用我们的产品。所以帮助你们构建更好的产品,是我们最重要的工作之一。”
这是一个关于分发策略的关键表态。Anthropic没有消费级爆款应用(ChatGPT拥有数亿用户,Claude的消费者产品规模小得多),但它在B2B开发者生态里的渗透率正在快速增长。API流量17倍增长的背后,是成千上万的开发者在把Claude嵌进他们面向终端用户的产品。
Anthropic的赢法,不是自己成为ChatGPT,而是成为那个让所有好用的AI应用背后的引擎。这是AWS的逻辑,是Stripe的逻辑:不争流量,争基础设施。
Anthropic的赢法,不是自己成为ChatGPT,而是成为那个让所有好用的AI应用背后的引擎。这是AWS的逻辑,是Stripe的逻辑:不争流量,争基础设施。
Code with Claude 2026大会,是Anthropic向开发者社区发出的一个信号:我们认真对待你们,我们不只是给你们API key,我们要帮你们真正做出更好的产品。从限额翻倍到Dreaming功能,从Netflix成熟度模型到Boris的异步工作台演示,这一天的内容组合,是Anthropic对”基础设施提供者”这个身份的最完整表达。
七、对立视角:批评者怎么看这一天
当然,并不是每个人都对大会的内容感到振奋。
Simon Willison在现场直播的早期更新里直言:”这一切对我来说有点太励志了,我期待看到更多具体的模型或产品发布公告。”
这个反应代表了一部分开发者社区的感受:他们来Code with Claude大会,期待的是类似Apple WWDC的那种”具体功能,立刻可用”的公告密度,而不是关于”AI如何改变工作方式”的演讲框架。
另一个批评点涉及Dreaming功能的可访问性——它目前是”研究预览”状态,需要主动申请访问,实际开放时间表不明确。对于想立刻上手实验的开发者来说,这等于是一个延迟发货的产品。同样,多智能体编排虽然进入了公开测试,但生产级的稳定性保证、定价方案、企业级SLA都还不清晰。
第三个潜在的批评角度,是关于Netflix成熟度模型的适用性。Netflix是技术密集型企业,工程文化深厚,3000名工程师愿意尝试新工具的组织推动力不是每家企业都有的。把Netflix的实验框架推广到传统行业的大型组织,需要面对的阻力——IT治理、安全合规、员工接受度——可能比技术本身更复杂。
这些批评是合理的。Anthropic这次大会的定位更像”愿景宣告”,而不是”功能发布会”。这对于已经在生态中深度投入的开发者来说是有价值的,但对于还在评估”要不要重注Claude”的观望者来说,说服力可能有限。
八、一个更长的视角:这些公告指向哪里
把今天的所有公告放在一个更长的时间轴上看,可以看到一个一致的方向:
Anthropic正在从”模型提供商”走向”AI工作基础设施提供商”。
模型提供商的核心价值,是模型本身的能力:更聪明、更快、更便宜。这个竞争的前沿每三到六个月就在移动,没有任何玩家能长期保持领先。
AI工作基础设施提供商的核心价值,是围绕模型建立的整套工作体系:记忆、编排、自我改进、成功评估、异步工作流、团队协作工具。这些东西建立起来之后,有很高的转换成本——一个组织花了三个月用Claude Managed Agents建立了自己的Dreaming记忆库,花了两个月训练了所有工程师使用Claude Code的特定工作流,它不会轻易迁移到另一个平台,即使另一个平台的基础模型分数稍高一点。
Anthropic的战略方向,是在模型能力竞争之外,建立一个生态锁定的飞轮:开发者工具越好用 → 开发者在上面构建的应用越多 → 终端用户通过这些应用体验Claude的人越多 → API流量越高 → 训练数据越丰富 → 模型能力越强 → 工具越好用。
Netflix的3000名工程师使用Claude Code,是这个飞轮上一个真实的支撑点。17倍的API流量增长,是飞轮在加速的信号。Dreaming让Agent随时间改进,是飞轮转速加快之后,模型记忆和学习能力也在同步积累的机制设计。
这些,加在一起,比任何单独的功能发布都更重要。
九、开发者社区今天应该做什么
如果你是一个在考虑是否深度押注Claude生态的开发者或技术决策者,今天的发布给了你几个明确的行动信号:
短期(今天就可以做的):Claude Code的使用限额翻倍了,高峰时段限制消除了——如果你之前因为这些限制而犹豫,现在可以重新测试。Claude Opus的API速率限制提升了——如果你有需要高质量推理的生产应用场景,可以重新评估Opus集成的可行性。
中期(公开测试阶段可以测的):多智能体编排和Outcomes功能进入了公开测试。如果你有复杂的需要多个专业Agent协同完成的任务(代码审查+测试+文档生成,或者研究+分析+报告生成),现在是实验的好时机。Outcomes功能的”成功标准自动评估”对于需要减少人工审查成本的团队来说,有明显的实用价值。
长期(需要申请且排队等待的):Dreaming是研究预览,需要申请。如果你的业务里有反复运行的Agent工作流(每天跑相同类型的任务),Dreaming可能带来的积累效应最显著——Agent会越来越了解你的偏好、常见错误和优化路径。现在就申请,提前排队。
Netflix的成熟度框架值得认真参照。你的团队目前在哪一层?什么阻止了你们走向更高层?技术限制(限额、功能不成熟)还是组织限制(工作流程未重设计、评估机制未建立)?这个问题的答案,比工具本身更重要。
对于企业管理者来说,Cat Wu提到的”管理者重新写代码”这个现象是一个值得认真对待的信号:如果你的组织里有技术背景的产品经理和管理者,现在可能是重新评估他们的工作方式的好时机。把Claude Code给他们试一个月,看看他们能在多大程度上缩短产品假设验证的周期。
而对于已经在深度使用Claude Code的团队,下一个值得思考的问题或许是:你们有没有认真测量过,你们在第几层?不是凭感觉说”我们挺会用AI的”,而是有没有数据显示工程交付速度、设计决策周期、新工程师上手时间,在AI辅助之后有多大的可量化改变?Netflix的经验提示,成熟度的提升是需要主动管理的——不会自动发生。
最后,SpaceX的算力协议和今天的产品发布捆绑在一起,传递的组合信息是明确的:Anthropic同时在解决基础设施层(算力够不够)和应用层(工具好不好用)的问题。这两件事都做的公司,是比只做其中一件更值得长期投入的平台选择。
17倍的API流量增长,是这两条腿走路的结果:更强的模型能力吸引了更多开发者,更好用的工具降低了开发者的摩擦,更充裕的算力让服务质量得到保障,更多终端用户的使用体验产生了更多的反馈信号。大会结束之后,这个飞轮不会停下来,它会继续转动,直到下一次遇到新的瓶颈。而Anthropic今天展示的,是他们正在提前布局那个瓶颈还没出现的时候。
参考资料
- Live blog: Code w/ Claude 2026 — Simon Willison, 2026-05-06
- Anthropic is programming Claude to “dream” — The Verge, 2026-05-06
- Claude Managed Agents: Dreams documentation — Anthropic
-
Higher usage limits for Claude and a compute deal with SpaceX — Anthropic, 2026-05-06
- Live blog: Code w/ Claude 2026 — Simon Willison, 2026-05-06
- Anthropic is programming Claude to “dream” — The Verge, 2026-05-06
- Claude Managed Agents: Dreams documentation — Anthropic
-
Higher usage limits for Claude and a compute deal with SpaceX — Anthropic, 2026-05-06
- Live blog: Code w/ Claude 2026 — Simon Willison, 2026-05-06
- Anthropic is programming Claude to “dream” — The Verge, 2026-05-06
- Claude Managed Agents: Dreams documentation — Anthropic
- Higher usage limits for Claude and a compute deal with SpaceX — Anthropic, 2026-05-06