Uber四个月烧掉全年AI预算:Token定价正在击穿企业财务模型
Uber四个月烧掉全年AI预算:Token定价正在击穿企业财务模型
一位CTO在两小时的个人演示中花掉了1200美元。5000名工程师中11%的后端更新完全无人监督。这不是AI项目失控的故事——这是企业财务体系正在被一种全新的价值交换逻辑击穿,而大多数CFO还没有意识到这件事正在发生。
2026年4月,Uber的CFO发现了一件让他极度不安的事:公司全年的AI预算,已经被烧光了。
距离年初,刚好四个月。
这家公司在AI上的投资是真实的。Uber的研发总支出在2025年达到34亿美元。烧光预算,不是因为Uber没有钱,而是因为他们对AI消费的增长速度完全低估了——不是10%、20%的偏差,而是数倍级的系统性错判。
一场工程成功、财务失控的实验
这不是一个AI项目失控的故事。按照任何工程效率指标来看,Uber的Claude Code部署都是教科书级的成功:
- 5000名工程师中,95%每月活跃使用AI工具
- 70%的提交代码来自AI辅助
- 11%的后端更新完全由Agent自主完成,全程无人参与
- 采用率从2026年2月的32%,到3月已飙升至84%的”Agentic编码用户”
Uber CTO Praveen Neppalli Naga向《The Information》证实了这一切,同时也坦诚说:公司现在需要”重新推翻所有假设,从头来过”。
他自己在一次两小时的个人Demo演示中,一个人花掉了1200美元。
这是一个历史上罕见的案例形态:工程团队交出了满分答卷,财务部门却看到了一场噩梦。而这种案例,很快会越来越普遍。
Uber的故事从2025年12月开始。那时公司将Claude Code滚动部署到工程组织。最初的反应是谨慎的,没有人会把一个新工具一下子推给所有工程师。但采用曲线很快开始弯折:2月份有32%的工程师算作活跃用户,到3月份这个数字已变成了84%。到春天,AI工具已经渗透进了工程文化的毛细血管里。
没有人下令”必须用AI”。Uber用的是另一种更聪明、也更危险的方式:内部排行榜。工程师按Claude Code使用量排名,被看见、被认可、被记录在绩效系统里。这个设计非常有效,它让AI工具的使用成为了一种文化荣誉,而不仅仅是一种效率选择。
没有人预见到,这个激励结构,会成为燃烧预算的加速器。
Token定价:一个随使用量指数膨胀的成本黑洞
要理解为什么预算会在四个月内耗尽,必须先理解Token定价的本质,以及它与企业传统采购逻辑的根本矛盾。
传统软件定价的逻辑
企业IT采购中,大多数软件工具按”席位”(seat)定价:每人每月固定费用,年度承诺。Salesforce、Microsoft 365、GitHub——逻辑都一样。你有1000名工程师,每人30美元每月,预算就是36万美元每年。固定、可预测、CFO能睡着觉。
这个定价逻辑背后有一个隐含假设:用户的使用量大致均匀分布,重度用户与轻度用户互相抵消,平均值保持稳定。在人类工作者的模型下,这个假设基本成立——人每天的工作时间有上限,注意力有上限,体力和精力有上限。
Token定价打破了这个人类上限假设
Claude Code不按席位收费,它按Token消费量计量。而Token消费量,对于AI编码工具来说,随工作负载的深度指数级变化:
- 普通用例(自动补全、简单代码解释):消费基线量
- 中等用例(生成函数、代码优化、单元测试生成):消费3至5倍基线
- 重度Agentic用例(跨Monorepo大规模重构、并行多Agent执行、自动化集成测试、无监督后端更新):消费20至100倍基线
同一个工程师、同一天、同一台电脑,在这三种模式下的月度账单可以相差100倍。Uber的实际数据印证了这个差距:
- 普通工程师:每月150至250美元
- 重度Agentic用户:每月500至2000美元
- CTO本人的两小时Demo:1200美元
当Uber建立了”用得越多,排名越靠前”的内部激励机制时,它实际上是在系统性地、主动地推动工程师向高消费用例迁移。而AI工具不需要休息,不需要午饭,不受工作时间限制——一个启动中的Agentic任务可以在夜里持续运行,Token消费在工程师睡觉时仍在积累。
人类使用时的”使用量有上限”假设,在AI时代彻底失效了。管生产力的团队和管预算的团队不是同一个团队,这个组织层面的裂缝,成为了燃烧速度的放大器。
微软的对照实验
这里有一个意味深长的行业对比。Microsoft 365 Copilot企业版,定价是每用户每月30美元,年度承诺。价格上限封顶,CFO可以用人头数直接乘出预算数字,误差在可接受范围内。
Anthropic的消费模型给了供应商无限的上行收益空间,给了企业CFO接近零的前向可预测性。两种模型都有各自的商业合理性,也各有利弊,但在企业年度预算规划周期里,把Token消费模型按照per-seat定价来规划,是会产生多倍偏差的根本性错误。而这个错误,目前在行业里几乎是默认配置。
行业共识正在形成:这不是Uber的个人问题
Uber的案例在行业里不是孤立事件,就在这个预算危机曝光前后,两个重量级行业信号同步出现。
信号一:Anthropic的定价结构调整
2026年5月13日,Anthropic宣布:从6月15日起,Claude的付费订阅用户将面对一个单独的月度积分计量器,专门用于Agent工具和第三方扩展,按完整API价格计费。
这是什么意思?在此之前,订阅Claude Pro的用户在使用范围内使用Agent功能时不需要额外计量。6月15日之后,这个”额外”被明确分离出来,独立计量,独立收费。Anthropic本质上是在说:Agentic工作负载的成本,和普通对话的成本,不能再放在同一个桶里。
信号二:GitHub的跟进
GitHub同期宣布Copilot将在6月1日切换到积分制定价。这不是巧合,这是行业方向的收敛信号。
分析师的判断已经形成共识:未来12至24个月,大多数AI厂商将为Agent和工具使用引入独立的消费池。词汇可能不同,可能叫积分、请求数、消息数或计算单元,但方向已定:让Agent无限使用的flat-rate定价从来就撑不住数学,厂商们已经决定把这个成本逻辑直接传递给买家,而不是自己吸收。
这意味着,今天正在规划AI工具预算的每一家企业,都将在6至18个月内面临和Uber相似的压力。区别只在于:有多少CFO已经知道这一点,并提前做了准备。
从这个角度看,Uber其实给了整个行业一份昂贵但宝贵的礼物:一个真实的、有完整数据的失败案例,让其他企业有机会从容地重新规划,而不是在预算枯竭时才猛然醒悟。
生产力防御论:一个越来越复杂的论证
AI行业对于”成本超支”的标准回应始终是:生产力提升超过了成本增加,综合ROI依然为正。
Uber的案例让这个论点变得更加微妙。
70%的代码由AI辅助产生,11%的后端更新完全无人参与,这些数字从工程效率的视角看确实惊人。但存在三个让”生产力防御论”难以简单成立的结构性问题:
问题一:成本和收益出现在企业报表的不同位置
工程效率节省的人力成本,体现在人力资源预算里,以”需要雇用的工程师减少”或”现有工程师承接更多任务”的形式出现。AI工具的消费,计在技术预算或云服务预算里,以”工具费用增加”的形式出现。在季度财务复盘中,财务团队无法在同一张表里把这两个数字净算,因为它们分属不同的成本中心、不同的财年责任人、不同的预算批准流程。
这种结构性的分离,让”AI生产力抵消AI成本”这个逻辑,在企业实际操作层面几乎无法被执行。
问题二:Gartner的调研打破了AI裁员ROI假设
Fortune同期报道的一项Gartner研究揭示了令人不安的规律:在试点AI的公司中,80%已经开始裁员,但裁员率在AI高回报公司和低回报公司之间几乎没有统计差异。换句话说,是否用AI裁员,并不能预测这家公司的AI部署是否成功。
对Uber来说,让Senior工程师运行重度Agentic工作流,每人每月成本可能高达2000美元。要让这个消费产生正回报,工程师的Agentic工作需要创造超过传统工作20倍的价值——这个门槛比大多数企业想象的要高得多,而目前没有任何公开的基准测试数据能够证明这个倍数的普遍成立。
问题三:治理覆盖率与使用率的巨大落差
目前只有43%的组织有正式的AI治理政策。这个数字和Uber的95%月活跃率并排放在一起,构成了一个极度危险的不对称:绝大多数工程师在大量使用AI工具,但超过一半的组织对如何管理这种使用,还没有任何正式规则。
11%的完全无人监督后端更新,在没有清晰的回滚机制、责任归属和审计路径时,不只是一个效率数字。它是一个风险计时器。
三个层次的深层含义
Uber这个案例,表面是财务新闻,但它照亮了一个更深的转变。
第一层:可见的预算超支
四个月烧光全年预算,这是表面现象。CTO没有把它定性为失败,他说的是需要”重新建立所有假设”。这是一个成熟的企业应对方式,但也揭示了一个事实:即使在Uber这样规模的顶级科技公司,AI工具的财务管理框架也还处于空白地带,需要从头构建。
第二层:财务体系的结构性错配
Token定价的本质是:价值创造和成本消耗不再以同样的节奏、相同的计量单位发生。一个Agent可以在五分钟内完成一个工程师三天的工作,同时在这五分钟里消耗超过三天工资等量的Token费用。
传统的”人力成本等于单价乘以时间乘以人数”的财务逻辑在这里完全失效。企业现在需要一个新的框架,能够把AI生产力增益、Token消费成本、运营风险敞口和组织效率放在同一个视角下衡量——这个框架,目前并不存在,但对于每一家正在大规模采用AI工具的企业来说,它的构建已经是一个紧迫任务。
第三层:新的协作关系范式
当11%的后端更新完全无人参与时,一个哲学层面的问题悄然浮现:我们还应该用”工具”来描述AI吗?
工具是被动的,它静静地等待人类拿起它、使用它、放下它。而当一个系统能够自主完成生产环境的后端更新,不是在测试环境里,不是在隔离的沙箱中,而是在真实运行的生产系统中,它更接近一个协作者的定义:一个全天候工作、不需要晋升通道、没有情感需求,但也没有情境判断力和伦理考量的协作者。
Uber目前用的仍然是为”工具采购”设计的预算框架来管理这个协作者。按工具来采购,按工具来审批,按工具来核算。而真正合适的框架,应该更接近于”如何雇佣、管理、考核一个高产量但高成本的临时工团队”——这是一个组织设计问题,不只是一个IT采购问题。
CFO和CTO需要共同面对的核心问题
Uber的案例揭示的核心矛盾,不是”预算太少”,而是”用来管理AI消费的整个企业操作系统,还是用来管理人力资源的那一套”。在这个前提下,任何不改变操作系统底层逻辑的”解决方案”,都只是在原有框架下打补丁。
真正的转型需要三件事同时发生:
第一,预算语言的切换。 从”我们需要多少人,每人多少钱”,切换到”这个工作负载的规模是多少,不同使用深度下Token消耗的上下界估算是多少”。这不只是换一个数字,而是要求CFO和CTO能够用同一种语言对话——这种对话,目前在大多数企业里还不存在。
第二,监控与治理的同步。 Token消费必须有实时可见性,而不是月度账单。同时,当11%的后端更新完全无人监督时,AI治理政策不能停留在”谁可以用哪个模型”的层面,必须覆盖”哪些任务允许完全自主执行、谁负责后果、如何审计”——这是运营风险,不只是财务风险。
第三,激励结构的重新校准。 Uber的排行榜是一个警示:激励什么,就得到什么。如果激励Token消费量,就会得到最大化Token消费。激励结构需要同时优化”产出价值”和”成本效率”,而不是单纯的”使用量”指标。
谁会是下一个Uber?
这个问题比表面上更难回答。
Uber是科技公司,技术深度高,工程师密度大,AI采用曲线天然更陡。但Claude Code、GitHub Copilot、Cursor这类工具,现在已经在金融服务、零售、制造、医疗健康等各行各业的工程团队中快速扩散。这些行业的工程师数量未必少于科技公司,对Agentic工作流的好奇心也没有更弱。
区别只在于,他们还没有经历”四个月烧完全年预算”的时刻——这个时刻,对于许多企业来说,只是尚未到来,而不是永远不会到来。
行业研究机构的数据显示,2025年企业AI工具预算平均超支幅度已经接近40%。2026年,随着Agentic用例的普及和Token定价的独立计量化,这个超支幅度预计将进一步扩大。Uber的案例是一个早期信号,而不是一个异常值。
对于还没有经历这个时刻的企业来说,现在正是预先设计框架的窗口期。等到预算枯竭才开始构建应对机制,代价将远大于现在投入的时间和精力。这是Uber用真金白银换来的一课,值得每一个正在规划AI工具预算的企业管理者认真阅读。
不同角色的人,从这件事里需要带走的,也是不同的东西。
对于工程师和工程管理者,还有一个更直接的问题需要面对:当排行榜把Token消费量变成了荣誉指标,当用AI多就意味着”更有进取心”,这种文化氛围是否真的在推动最有价值的工作,还是只是在推动最高的积分消费?据报道,部分Uber工程师在排行榜出现后,开始用复杂的Agentic任务来完成本来用简单方法就能解决的问题——因为复杂Agentic任务在榜单上显得更有分量。这是一种文化扭曲,是在生产效率之外引入了额外的摩擦成本。
对于AI工具供应商,Uber的案例是一个值得深思的市场信号。给企业客户无尽的Token消费能力,但同时给他们接近零的预算预测工具,这种产品设计长期来看会让企业陷入被动,从而损害对工具的信任。能够提供消费可见性、智能预算控制和实时限额机制的供应商,将在企业市场建立更深的长期关系,即使短期内牺牲了部分消费增长。
结语:四个月的预算,一个时代的账单
Uber在四个月内烧掉了全年AI预算。这个结果让人震惊,但它真正的意义不在于钱烧掉了多少。
真正的意义在于:这件事告诉我们,AI已经深入到了企业生产的核心地带。不是在试点项目里,不是在某个孤立的实验中,而是在5000名工程师的日常工作流里,在70%的代码提交里,在11%的无监督后端更新里。
在这个深度,还用工业时代的财务思维来管理它,结果就是四个月烧光全年预算。
这不是Uber失败了。这是我们现有的企业管理体系,还没有为这个深度做好准备。
真正需要被重新发明的,不是AI工具本身。而是三件事:
其一,描述AI价值的语言。不再是”我们节省了多少工程师时间”,而是”这个系统在这段时间内产生了多少业务价值,消耗了多少计算成本,暴露了多少运营风险”。
其二,管理AI消费的框架。不是基于人头数的per-seat预算,而是基于工作负载预测的弹性Token预算,配合实时监控和动态限额。
其三,治理AI协作的结构。不是对”工具使用”的规定,而是对”人机协作关系”的设计——明确哪些任务允许自主执行,哪些必须有人在环,失败时谁负责,成功时如何量化。
当Anthropic在6月15日对Agent工具启动独立计量,当GitHub切换到积分制,当越来越多的企业在生产环境中运行着”11%的无监督更新”,这个重新发明已经不是一个可以慢慢来的选项。
它是一张已经送到桌上的账单,每一天不支付,利息就在增加。
参考来源:
- Forbes: Uber Burns Its 2026 AI Budget In Four Months On Claude Code — Janakiram MSV, 2026-05-17
- The Information: Uber CTO Shows Claude Code Can Blow AI Budgets(Neppalli Naga确认采访)
- Axios: Anthropic Claude price OpenAI tokens, 2026-05-14
- Fortune / Gartner: AI驱动裁员ROI研究, 2026-05-11
- Benzinga: Uber R&D spend $3.4B in 2025
- InfoWorld: Anthropic puts Claude agents on a meter across subscriptions
本文属于”企业AI落地”深度分析系列,关注AI工具在真实企业环境中的成本结构、商业模型重塑与组织变革挑战。