Uber四个月烧掉全年AI预算：Token定价正在击穿企业财务模型

一位CTO在两小时的个人演示中花掉了1200美元。5000名工程师中11%的后端更新完全无人监督。这不是AI项目失控的故事——这是企业财务体系正在被一种全新的价值交换逻辑击穿，而大多数CFO还没有意识到这件事正在发生。

2026年4月，Uber的CFO发现了一件让他极度不安的事：公司全年的AI预算，已经被烧光了。

距离年初，刚好四个月。

这家公司在AI上的投资是真实的。Uber的研发总支出在2025年达到34亿美元。烧光预算，不是因为Uber没有钱，而是因为他们对AI消费的增长速度完全低估了——不是10%、20%的偏差，而是数倍级的系统性错判。

一场工程成功、财务失控的实验

这不是一个AI项目失控的故事。按照任何工程效率指标来看，Uber的Claude Code部署都是教科书级的成功：

5000名工程师中，95%每月活跃使用AI工具
70%的提交代码来自AI辅助
11%的后端更新完全由Agent自主完成，全程无人参与
采用率从2026年2月的32%，到3月已飙升至84%的”Agentic编码用户”

Uber CTO Praveen Neppalli Naga向《The Information》证实了这一切，同时也坦诚说：公司现在需要”重新推翻所有假设，从头来过”。

他自己在一次两小时的个人Demo演示中，一个人花掉了1200美元。

这是一个历史上罕见的案例形态：工程团队交出了满分答卷，财务部门却看到了一场噩梦。而这种案例，很快会越来越普遍。

Uber的故事从2025年12月开始。那时公司将Claude Code滚动部署到工程组织。最初的反应是谨慎的，没有人会把一个新工具一下子推给所有工程师。但采用曲线很快开始弯折：2月份有32%的工程师算作活跃用户，到3月份这个数字已变成了84%。到春天，AI工具已经渗透进了工程文化的毛细血管里。

没有人下令”必须用AI”。Uber用的是另一种更聪明、也更危险的方式：内部排行榜。工程师按Claude Code使用量排名，被看见、被认可、被记录在绩效系统里。这个设计非常有效，它让AI工具的使用成为了一种文化荣誉，而不仅仅是一种效率选择。

没有人预见到，这个激励结构，会成为燃烧预算的加速器。

Token定价：一个随使用量指数膨胀的成本黑洞

要理解为什么预算会在四个月内耗尽，必须先理解Token定价的本质，以及它与企业传统采购逻辑的根本矛盾。

传统软件定价的逻辑

企业IT采购中，大多数软件工具按”席位”（seat）定价：每人每月固定费用，年度承诺。Salesforce、Microsoft 365、GitHub——逻辑都一样。你有1000名工程师，每人30美元每月，预算就是36万美元每年。固定、可预测、CFO能睡着觉。

这个定价逻辑背后有一个隐含假设：用户的使用量大致均匀分布，重度用户与轻度用户互相抵消，平均值保持稳定。在人类工作者的模型下，这个假设基本成立——人每天的工作时间有上限，注意力有上限，体力和精力有上限。

Token定价打破了这个人类上限假设

Claude Code不按席位收费，它按Token消费量计量。而Token消费量，对于AI编码工具来说，随工作负载的深度指数级变化：

普通用例（自动补全、简单代码解释）：消费基线量
中等用例（生成函数、代码优化、单元测试生成）：消费3至5倍基线
重度Agentic用例（跨Monorepo大规模重构、并行多Agent执行、自动化集成测试、无监督后端更新）：消费20至100倍基线

同一个工程师、同一天、同一台电脑，在这三种模式下的月度账单可以相差100倍。Uber的实际数据印证了这个差距：

普通工程师：每月150至250美元
重度Agentic用户：每月500至2000美元
CTO本人的两小时Demo：1200美元

当Uber建立了”用得越多，排名越靠前”的内部激励机制时，它实际上是在系统性地、主动地推动工程师向高消费用例迁移。而AI工具不需要休息，不需要午饭，不受工作时间限制——一个启动中的Agentic任务可以在夜里持续运行，Token消费在工程师睡觉时仍在积累。

人类使用时的”使用量有上限”假设，在AI时代彻底失效了。管生产力的团队和管预算的团队不是同一个团队，这个组织层面的裂缝，成为了燃烧速度的放大器。

微软的对照实验

这里有一个意味深长的行业对比。Microsoft 365 Copilot企业版，定价是每用户每月30美元，年度承诺。价格上限封顶，CFO可以用人头数直接乘出预算数字，误差在可接受范围内。

Anthropic的消费模型给了供应商无限的上行收益空间，给了企业CFO接近零的前向可预测性。两种模型都有各自的商业合理性，也各有利弊，但在企业年度预算规划周期里，把Token消费模型按照per-seat定价来规划，是会产生多倍偏差的根本性错误。而这个错误，目前在行业里几乎是默认配置。

行业共识正在形成：这不是Uber的个人问题

Uber的案例在行业里不是孤立事件，就在这个预算危机曝光前后，两个重量级行业信号同步出现。

信号一：Anthropic的定价结构调整

2026年5月13日，Anthropic宣布：从6月15日起，Claude的付费订阅用户将面对一个单独的月度积分计量器，专门用于Agent工具和第三方扩展，按完整API价格计费。

这是什么意思？在此之前，订阅Claude Pro的用户在使用范围内使用Agent功能时不需要额外计量。6月15日之后，这个”额外”被明确分离出来，独立计量，独立收费。Anthropic本质上是在说：Agentic工作负载的成本，和普通对话的成本，不能再放在同一个桶里。

信号二：GitHub的跟进

GitHub同期宣布Copilot将在6月1日切换到积分制定价。这不是巧合，这是行业方向的收敛信号。

分析师的判断已经形成共识：未来12至24个月，大多数AI厂商将为Agent和工具使用引入独立的消费池。词汇可能不同，可能叫积分、请求数、消息数或计算单元，但方向已定：让Agent无限使用的flat-rate定价从来就撑不住数学，厂商们已经决定把这个成本逻辑直接传递给买家，而不是自己吸收。

这意味着，今天正在规划AI工具预算的每一家企业，都将在6至18个月内面临和Uber相似的压力。区别只在于：有多少CFO已经知道这一点，并提前做了准备。

从这个角度看，Uber其实给了整个行业一份昂贵但宝贵的礼物：一个真实的、有完整数据的失败案例，让其他企业有机会从容地重新规划，而不是在预算枯竭时才猛然醒悟。

生产力防御论：一个越来越复杂的论证

AI行业对于”成本超支”的标准回应始终是：生产力提升超过了成本增加，综合ROI依然为正。

Uber的案例让这个论点变得更加微妙。

70%的代码由AI辅助产生，11%的后端更新完全无人参与，这些数字从工程效率的视角看确实惊人。但存在三个让”生产力防御论”难以简单成立的结构性问题：

问题一：成本和收益出现在企业报表的不同位置

工程效率节省的人力成本，体现在人力资源预算里，以”需要雇用的工程师减少”或”现有工程师承接更多任务”的形式出现。AI工具的消费，计在技术预算或云服务预算里，以”工具费用增加”的形式出现。在季度财务复盘中，财务团队无法在同一张表里把这两个数字净算，因为它们分属不同的成本中心、不同的财年责任人、不同的预算批准流程。

这种结构性的分离，让”AI生产力抵消AI成本”这个逻辑，在企业实际操作层面几乎无法被执行。

问题二：Gartner的调研打破了AI裁员ROI假设

Fortune同期报道的一项Gartner研究揭示了令人不安的规律：在试点AI的公司中，80%已经开始裁员，但裁员率在AI高回报公司和低回报公司之间几乎没有统计差异。换句话说，是否用AI裁员，并不能预测这家公司的AI部署是否成功。

对Uber来说，让Senior工程师运行重度Agentic工作流，每人每月成本可能高达2000美元。要让这个消费产生正回报，工程师的Agentic工作需要创造超过传统工作20倍的价值——这个门槛比大多数企业想象的要高得多，而目前没有任何公开的基准测试数据能够证明这个倍数的普遍成立。

问题三：治理覆盖率与使用率的巨大落差

目前只有43%的组织有正式的AI治理政策。这个数字和Uber的95%月活跃率并排放在一起，构成了一个极度危险的不对称：绝大多数工程师在大量使用AI工具，但超过一半的组织对如何管理这种使用，还没有任何正式规则。

11%的完全无人监督后端更新，在没有清晰的回滚机制、责任归属和审计路径时，不只是一个效率数字。它是一个风险计时器。

三个层次的深层含义

Uber这个案例，表面是财务新闻，但它照亮了一个更深的转变。

第一层：可见的预算超支

四个月烧光全年预算，这是表面现象。CTO没有把它定性为失败，他说的是需要”重新建立所有假设”。这是一个成熟的企业应对方式，但也揭示了一个事实：即使在Uber这样规模的顶级科技公司，AI工具的财务管理框架也还处于空白地带，需要从头构建。

第二层：财务体系的结构性错配

Token定价的本质是：价值创造和成本消耗不再以同样的节奏、相同的计量单位发生。一个Agent可以在五分钟内完成一个工程师三天的工作，同时在这五分钟里消耗超过三天工资等量的Token费用。

传统的”人力成本等于单价乘以时间乘以人数”的财务逻辑在这里完全失效。企业现在需要一个新的框架，能够把AI生产力增益、Token消费成本、运营风险敞口和组织效率放在同一个视角下衡量——这个框架，目前并不存在，但对于每一家正在大规模采用AI工具的企业来说，它的构建已经是一个紧迫任务。

第三层：新的协作关系范式

当11%的后端更新完全无人参与时，一个哲学层面的问题悄然浮现：我们还应该用”工具”来描述AI吗？

工具是被动的，它静静地等待人类拿起它、使用它、放下它。而当一个系统能够自主完成生产环境的后端更新，不是在测试环境里，不是在隔离的沙箱中，而是在真实运行的生产系统中，它更接近一个协作者的定义：一个全天候工作、不需要晋升通道、没有情感需求，但也没有情境判断力和伦理考量的协作者。

Uber目前用的仍然是为”工具采购”设计的预算框架来管理这个协作者。按工具来采购，按工具来审批，按工具来核算。而真正合适的框架，应该更接近于”如何雇佣、管理、考核一个高产量但高成本的临时工团队”——这是一个组织设计问题，不只是一个IT采购问题。

CFO和CTO需要共同面对的核心问题

Uber的案例揭示的核心矛盾，不是”预算太少”，而是”用来管理AI消费的整个企业操作系统，还是用来管理人力资源的那一套”。在这个前提下，任何不改变操作系统底层逻辑的”解决方案”，都只是在原有框架下打补丁。

真正的转型需要三件事同时发生：

第一，预算语言的切换。 从”我们需要多少人，每人多少钱”，切换到”这个工作负载的规模是多少，不同使用深度下Token消耗的上下界估算是多少”。这不只是换一个数字，而是要求CFO和CTO能够用同一种语言对话——这种对话，目前在大多数企业里还不存在。

第二，监控与治理的同步。 Token消费必须有实时可见性，而不是月度账单。同时，当11%的后端更新完全无人监督时，AI治理政策不能停留在”谁可以用哪个模型”的层面，必须覆盖”哪些任务允许完全自主执行、谁负责后果、如何审计”——这是运营风险，不只是财务风险。

第三，激励结构的重新校准。 Uber的排行榜是一个警示：激励什么，就得到什么。如果激励Token消费量，就会得到最大化Token消费。激励结构需要同时优化”产出价值”和”成本效率”，而不是单纯的”使用量”指标。

谁会是下一个Uber？

这个问题比表面上更难回答。

Uber是科技公司，技术深度高，工程师密度大，AI采用曲线天然更陡。但Claude Code、GitHub Copilot、Cursor这类工具，现在已经在金融服务、零售、制造、医疗健康等各行各业的工程团队中快速扩散。这些行业的工程师数量未必少于科技公司，对Agentic工作流的好奇心也没有更弱。

区别只在于，他们还没有经历”四个月烧完全年预算”的时刻——这个时刻，对于许多企业来说，只是尚未到来，而不是永远不会到来。

行业研究机构的数据显示，2025年企业AI工具预算平均超支幅度已经接近40%。2026年，随着Agentic用例的普及和Token定价的独立计量化，这个超支幅度预计将进一步扩大。Uber的案例是一个早期信号，而不是一个异常值。

对于还没有经历这个时刻的企业来说，现在正是预先设计框架的窗口期。等到预算枯竭才开始构建应对机制，代价将远大于现在投入的时间和精力。这是Uber用真金白银换来的一课，值得每一个正在规划AI工具预算的企业管理者认真阅读。

不同角色的人，从这件事里需要带走的，也是不同的东西。

对于工程师和工程管理者，还有一个更直接的问题需要面对：当排行榜把Token消费量变成了荣誉指标，当用AI多就意味着”更有进取心”，这种文化氛围是否真的在推动最有价值的工作，还是只是在推动最高的积分消费？据报道，部分Uber工程师在排行榜出现后，开始用复杂的Agentic任务来完成本来用简单方法就能解决的问题——因为复杂Agentic任务在榜单上显得更有分量。这是一种文化扭曲，是在生产效率之外引入了额外的摩擦成本。

对于AI工具供应商，Uber的案例是一个值得深思的市场信号。给企业客户无尽的Token消费能力，但同时给他们接近零的预算预测工具，这种产品设计长期来看会让企业陷入被动，从而损害对工具的信任。能够提供消费可见性、智能预算控制和实时限额机制的供应商，将在企业市场建立更深的长期关系，即使短期内牺牲了部分消费增长。

结语：四个月的预算，一个时代的账单

Uber在四个月内烧掉了全年AI预算。这个结果让人震惊，但它真正的意义不在于钱烧掉了多少。

真正的意义在于：这件事告诉我们，AI已经深入到了企业生产的核心地带。不是在试点项目里，不是在某个孤立的实验中，而是在5000名工程师的日常工作流里，在70%的代码提交里，在11%的无监督后端更新里。

在这个深度，还用工业时代的财务思维来管理它，结果就是四个月烧光全年预算。

这不是Uber失败了。这是我们现有的企业管理体系，还没有为这个深度做好准备。

真正需要被重新发明的，不是AI工具本身。而是三件事：

其一，描述AI价值的语言。不再是”我们节省了多少工程师时间”，而是”这个系统在这段时间内产生了多少业务价值，消耗了多少计算成本，暴露了多少运营风险”。

其二，管理AI消费的框架。不是基于人头数的per-seat预算，而是基于工作负载预测的弹性Token预算，配合实时监控和动态限额。

其三，治理AI协作的结构。不是对”工具使用”的规定，而是对”人机协作关系”的设计——明确哪些任务允许自主执行，哪些必须有人在环，失败时谁负责，成功时如何量化。

当Anthropic在6月15日对Agent工具启动独立计量，当GitHub切换到积分制，当越来越多的企业在生产环境中运行着”11%的无监督更新”，这个重新发明已经不是一个可以慢慢来的选项。

它是一张已经送到桌上的账单，每一天不支付，利息就在增加。

参考来源：

Forbes: Uber Burns Its 2026 AI Budget In Four Months On Claude Code — Janakiram MSV, 2026-05-17
The Information: Uber CTO Shows Claude Code Can Blow AI Budgets（Neppalli Naga确认采访）
Axios: Anthropic Claude price OpenAI tokens, 2026-05-14
Fortune / Gartner: AI驱动裁员ROI研究, 2026-05-11
Benzinga: Uber R&D spend $3.4B in 2025
InfoWorld: Anthropic puts Claude agents on a meter across subscriptions

本文属于”企业AI落地”深度分析系列，关注AI工具在真实企业环境中的成本结构、商业模型重塑与组织变革挑战。

Uber四个月烧掉全年AI预算：Token定价正在击穿企业财务模型

Uber四个月烧掉全年AI预算：Token定价正在击穿企业财务模型

一场工程成功、财务失控的实验

Token定价：一个随使用量指数膨胀的成本黑洞

行业共识正在形成：这不是Uber的个人问题

生产力防御论：一个越来越复杂的论证

三个层次的深层含义

CFO和CTO需要共同面对的核心问题

谁会是下一个Uber？

结语：四个月的预算，一个时代的账单

Tags:

About

Categories

Recent Posts

Resources