「代币最大化」的终局:当企业AI支出开始产生负回报,下一个泡沫破裂的预演已经开始
2026年5月28日,纽约大学名誉教授 Gary Marcus 在 Substack 发布了一篇措辞罕见尖锐的文章,标题是《Breaking: bad news for three of the biggest IPOs in history》。
他引用的数据来自《金融时报》(Financial Times):在最乐观的假设下,微软的 AI 投资回报率是 -9%,谷歌是 -15%,Meta 是 -28%,甲骨文是 -35%。只有亚马逊勉强转正。
Marcus 的结论只有四个字:”Brace for bailouts”。
这篇文章的阅读量在 48 小时内超过 97000 次,被转发 340 次。不是因为 Marcus 是预言家,而是因为很多人在等待这句话——一句敢于说”皇帝没有穿衣服”的话。
什么是「代币最大化」,以及它为什么短暂有效
2026 年第一季度,有一个词在企业 AI 圈里悄悄流行:tokenmaxxing。
这个词的意思很直白:鼓励员工尽可能多地使用 GenAI,不计较短期 ROI,就像当年推行 SaaS 订阅时的战略一样——先用起来,再考虑值不值。
背后的逻辑有几层。第一层:AI 工具需要时间才能产生价值,在早期阶段计较每一笔使用的成本回报率太保守了,等竞争对手先学会使用再追赶就来不及了。第二层:AI 的价值不是线性的,存在学习曲线——员工用得越多,越能发现哪些场景真正有效,而这个发现过程本身就是价值。第三层,也是最关键的一层:竞争对手都在用,你不用就是在主动落后。
这个逻辑在 2026 年初确实驱动了 Anthropic 和 OpenAI 的收入爆发。
Anthropic 完成了 650 亿美元 Series H 融资,估值 9650 亿美元,年化收入超过 470 亿美元。这组数字看起来像是胜利的证明,像是 AI 时代的商业奇迹。
但 Marcus 的原话在提醒另一个现实:”tokenmaxxing 可能拉高了 Anthropic 的第二季度业绩,但这种模式从一开始就不可持续。没有人会对某个月意外烧掉 5 亿美元感到舒适。”
5 亿美元消失的一个月,以及没有名字的「某公司」
Yahoo Finance 本周报道了一个案例,但刻意没有披露企业名称:某公司单月在 Claude AI 上花费了 5 亿美元。
这个数字是什么量级?Anthropic 年化收入约为 470 亿美元,折算月均约 39 亿美元——这家匿名企业一家就贡献了大约 13% 的月收入。
更具讽刺意味的是,Fortune 同期报道了一个有名字的案例:微软 Experiences & Devices 部门(负责 Windows、Microsoft 365、Teams 等核心产品线)在 2025 年 12 月引入 Claude Code 后,4 个月内耗尽了全年的 AI 编码预算。
这个部门不是某个小实验室,是微软最核心的产品线之一,拥有数以千计的工程师。公司计划在 2026 年 6 月 30 日终止大部分内部 Claude Code 许可证,转向成本更低的 GitHub Copilot CLI——讽刺的是,GitHub Copilot 本身也是 Anthropic 技术支持的,只是商业模式不同。
这两个案例的共同点是:大量资金进去了,但没有等价的可量化产出出来。
如果说这只是两个极端案例,还不足为信。但接下来 Uber 说的话,让整件事的性质变了。
Uber COO 说了一句让整个行业沉默的话
2026 年 5 月下旬,Uber 首席运营官在一次分析师会议上说:
“越来越难以证明 AI 支出与任何有意义的功能提升之间存在关联。”
这句话的分量超过了任何一个分析师报告。Uber 是企业 AI 的早期且重度使用者,在 AI 转型战略上的投入和决心不逊于任何一家大型科技公司。如果连 Uber 都无法为 AI 支出构建清晰的商业闭环,那些 AI 采用速度更慢、数字化程度更低的传统制造业、零售业、金融业企业,情况会是什么?
Ed Zitron 在 X 上评论说:”这是第一次有公司直接说出这句话。”这个观察本身就是一个信号——很多公司有同样的困惑,只是没人愿意先开口。
风险投资人、初创公司创始人 Karthik Hariharan 随后转发,配文更直接:
“同样的对话正在整个科技行业发生,很多人早就看到了。代币被烧掉了数百万美元,没有任何真实的重大 ROI 可以展示。OpenAI 和 Anthropic 最大的企业客户都在往里砸 FDE(Field Development Engineers,客户成功工程师),试图留住他们。”
“Tokens got burned for millions of dollars without any real significant ROI to show for it”——Marcus 在他的文章里引用了这句话,并写道:这可能是整个 AI 时代的墓志铭。
那张 FT 数据截图,以及它为什么如此重要
Marcus 文章中真正引爆讨论的,是他引用的一张截图,内含《金融时报》的分析数据。推特账号 @AskYoshik 转发时写道:”AI 数据开始变得非常难看。”
| 公司 | AI 投资回报率(最乐观假设) |
|---|---|
| 微软 | -9% |
| 谷歌 | -15% |
| Meta | -28% |
| 甲骨文 | -35% |
| 亚马逊 | 略微为正 |
数据来源说明:上述数字来自《金融时报》(Financial Times)的分析报告,由推特账号 @AskYoshik 整理截图,Gary Marcus 在其 Substack 文章中引用转发。该数据因缺乏直接引用原始 FT 报告链接,属于二次引用,具体方法论尚待 FT 原文验证;但鉴于《金融时报》的权威来源性,以及 Marcus 本人的学术身份,数据本身的参考价值仍然成立。
这张截图在 48 小时内获得了 109 条回复,340 次转发,1460 个点赞。
有趣的是,只有亚马逊略微为正。这绝非偶然——亚马逊的 AI 投资重心是 AWS 算力基础设施(Trainium、Inferentia 芯片系列、Bedrock 平台),这些投资以提供 AI 计算服务为核心,而非以消费 AI 服务为核心。建设卖铲子的生意,和买铲子去挖矿,是完全不同的 ROI 曲线。
理解这组数据,至少有三种路径:
路径 A:投资周期论。 AI 基础设施建设本身需要巨额资本支出,短期账面上 ROI 为负是正常现象。亚马逊的 AWS 本身就是最好的对照实验——互联网泡沫期间建设的数据中心在当时都是亏损的,但 10 年后这些基础设施支撑了数千亿美元的云计算业务。AI 算力的投资可能正处于这个阶段。
但这个比喻有一个关键的不对称:AWS 是亚马逊主动建设的基础设施,而这些公司采购的是别人的算力(NVIDIA 的 GPU、云厂商的基础设施)。投资周期论在内部建设时成立,在采购别人服务时逻辑要弱得多。如果采购带来的只是账面成本上升,而不是核心竞争力的构建,那等待期就没有意义。
路径 B:测量失败论。 知识工作者的生产力提升很难被准确测量。一个工程师用 Claude Code 写代码快了 40%,但这 40% 对应什么?如果他的薪资没变,公司节省的只是”假设他用这 40% 时间做了同等价值工作”的机会成本。但如果他实际上把节省的时间用于刷 X、开会、或者修复 AI 生成代码的 bug,那 ROI 就是负的。
知识工作的生产力测量本来就是经济学的难题,引入 AI 之后这个问题更加复杂——因为 AI 引入了一种新的错误类型:置信度很高但实际错误的输出。修复这类错误的成本,往往不出现在 AI 账单里,而是隐藏在工程师的调试时间和法务审查里。
路径 C:Marcus 的结构性危机论。 这是最悲观的解读。如果 FT 的投影是正确的,这不是周期问题,不是测量问题,而是 AI 目前阶段的能力根本不足以覆盖其成本。Marcus 的核心论点是:AI 系统目前仍然不够可靠,用于高价值任务的错误率过高,修复错误的隐性成本被系统性地低估了。
他在文章中直接写道:”Brace for bailouts”——这三个字是一个明确的预警:他认为部分押注 AI 浪潮的企业可能面临财务困境,而规模足够大时,市场会要求某种形式的救助。
Anthropic 的困境:越成功越脆弱?
这里有一个让 Anthropic 处境复杂的悖论。
Marcus 明确指出:tokenmaxxing 时代最大的受益者是 Anthropic 和 OpenAI。 企业大批开通 Claude 和 ChatGPT 账号,是这两家公司 2026 年第一季度收入爆发的核心驱动之一。
Anthropic 刚刚以 9650 亿美元估值完成 650 亿美元的 Series H 融资。这组数字看起来是绝对的胜利——公司创始于 2021 年,5 年不到就接近万亿估值,在 AI 领域超越 OpenAI 成为全球最高估值初创公司。
但如果 tokenmaxxing 真的正在退潮,这份营收的可持续性就面临根本性的审问:当企业开始要求 AI 支出产生可量化的 ROI,那些最大的”tokenmaxxing”受益者,是否也是最大的受害者?
更复杂的是 AI Agent 产品线的经济逻辑。Anthropic 的 Opus 4.8 和未来的 Agent 工具链,调用消耗的 token 量是普通查询的数十倍甚至数百倍。Bun 创始人用 Claude Code 动态工作流在 11 天内将 75 万行代码从 Zig 移植到 Rust,这个任务令人印象深刻——但它消耗的算力成本是多少?与雇用工程师完成同等工作相比,ROI 是多少?
矛盾在于:越先进的 AI 能力越贵,越贵的 AI 越需要证明 ROI,但越先进的 AI 往往越难测量 ROI(因为它执行的是更复杂、更难量化价值的任务)。
Salesforce 的案例:成功者的另一面
并非所有数据都是悲观的。Salesforce Q1 FY27 财报给出了一组完全不同的数字:
Salesforce CEO Marc Benioff 在财报电话会上透露,公司工程师团队规模两年来几乎没有增长(约 1.5 万人),AI 带来的生产力提升使得公司几乎只在销售部门扩招。Agentforce 平台 ARR 达到 12 亿美元,同比增长 205%,季度内成交 98 笔交易创纪录。
这组数字表面上看是 AI 成功的证明:用 AI 代理代替了需要增加的工程师,成本节约了,同时业务还在增长。
但仔细看,这个故事有另一面。冻结工程师团队两年,意味着企业 AI 带来的”效率提升”,实际上是以不增加工程师为代价的——节省的是那 1.5 万工程师的扩编成本,而不是在同等员工规模下让产出翻倍。这是一种重要的区别:AI 帮助避免了成本增加,但尚未系统性地把已有成本转化为新的价值。
这也许是 AI 在企业中最真实的现状:它擅长”让现有工作做得更快”,但在”创造以前无法实现的新商业模式”这件事上,能给出清晰正向 ROI 的案例依然稀少。
两种未来:消化期 vs. 结构性风险
面对这组数据,AI 行业的反应大致分成两个阵营。
乐观派的叙事:这是正常的技术采纳 S 曲线。企业从”实验”向”规模化”阶段过渡,中间一定有一段投入大于产出的时期。电气化、互联网、移动互联网都经历过这个阶段,那些坚持下去的企业最终收获了指数级的回报。那些真正完成 AI 深度集成的企业——Cognition 用 Devin 写 89% 的代码,Palantir AI 平台支持 7 名销售员管理 7000 名 AI”员工”——已经在展示 AI 带来的商业可能性。
悲观派的叙事(Marcus 的立场):AI 的核心问题是可靠性不足(still unreliable),用 AI 执行真实的高风险任务,错误率仍然高于人类在同等任务上的表现。企业用 AI”加速”的同时,引入了新的错误修复成本,这些成本往往不在 AI 的账单里,而是分散在整个组织里,以”工程师的调试时间”、”法务的审查工时”、”客服的投诉处理”等形式存在。净值可能是负的,只是看不见。
这两种叙事都有数据支撑,但方向完全相反。
Marcus 的文章之所以触动了这么多人,是因为他说出了一个无人愿意先开口的可能性:不是每个 AI 投资都会有回报,不是所有参与者都会成为赢家,有些企业会是这轮浪潮中的败者——而且人数可能远超过现在大多数人愿意承认的数目。
已经在发生的:预期的修正
这场讨论的实际影响,已经在多个层面开始展开:
企业层面:预算重审开始。 Forbes 报道微软正在开发统一的 AI 超级应用,将 GitHub Copilot、Copilot Chat、Copilot Cowork 和代号 Autopilot 的新代理工作流能力整合为一,解决多个 Copilot 产品碎片化的管理成本问题。背后逻辑之一是降低企业的 AI 管理复杂性——如果几个 AI 工具都在烧钱,但没人说得清楚哪个真正有用,整合是必然的。
创业生态:治理需求出现。 伦敦初创 Geordie AI 本周完成 3000 万美元 A 轮融资,这家公司的产品专门用于”发现、映射和约束企业内所有 AI Agent 的行为”。这个需求的出现本身就是一个信号:当企业发现自己已经不清楚内部有多少 AI Agent 在运行、它们在消耗多少算力时,”可见性”和”治理”就成了迫切需求——而不是又一个功能。
投资生态:叙事开始转变。 Gartner 调查显示,80% 试行自主 AI 技术的企业已经裁员,但裁员并没有带来有意义的财务回报。这个数据让一个问题变得尖锐:企业裁员节省的人力成本,究竟有多少进了 AI 的账单,而不是回到利润表上?
市场层面:资金轮动已经开始出现。 Dell Q1 FY2027 AI 服务器收入同比暴涨 757%,ServiceNow 单日涨 14%,Palantir 涨 10%——这些数字说明,资本市场正在用脚投票,支持”AI 基础设施”和”AI 能力平台”,而不是”AI 服务订阅”。这是一个重要的方向信号:投资者开始相信,真正的价值在于建设能力,而不是消费能力。
第三视角:「健康摆回」还是「危机开始」
Micro1 CEO Ali Ansari 在 Axios 的采访中把企业 AI 使用的收缩叫做”healthy swing away from AI overuse”——企业正在从过度使用 AI 中进行”健康的摆回”。
这个说法本身就值得玩味。
“健康摆回”意味着系统在修正过度偏差,最终会达到均衡。”危机开始”意味着问题比表面看起来更深,偏差本身是结构性的,修正的痛苦会超出预期。
现在的问题是,我们还处在分辨这两种可能性所需要的时间节点之前。
但有一件事是确定的:ROI 这个词,将在接下来 12 个月里成为整个 AI 行业最重要的叙事框架。
比产品发布更重要。比模型参数更重要。也比估值里的 9 位数更重要。
更深的问题:AI 是一种工具,还是一种瘾?
我们需要直接面对一个令人不舒服的问题:在 tokenmaxxing 现象的背后,是否存在一种更基本的认知扭曲?
现代企业对 AI 的使用方式,和对互联网、移动应用的使用方式存在一个重要差异:AI 的使用被设计为”越用越顺”——模型会根据反馈改进,用户界面被精心设计为减少摩擦,而消费的计量方式(token)是不透明的。
大多数企业员工不知道一次 Claude 对话消耗了多少 token,就像大多数人不知道一次 Instagram 浏览消耗了多少服务器资源一样。差异在于:Instagram 的商业模式是通过广告变现用户注意力,AI 的商业模式是直接向用户计费。当消费是看不见的,用户的抑制机制就会失效。
这就是为什么会出现”某公司单月在 Claude 上花 5 亿美元”这种事——不是因为有人刻意批准了这笔支出,而是因为没有人知道这笔支出正在发生,直到账单来了。
这个问题有一个学术名字叫”可见性赤字”(visibility deficit):当技术成本被封装在订阅或按量计费的黑盒里,组织的消费决策机制就会失效。历史上,企业邮件系统、SaaS 订阅的泛滥都有这个问题,但 AI 的成本弹性是完全不同量级的——一个员工用 AI Agent 执行任务,成本可能是手动操作的 100 倍,而在账单出来之前没有任何警示。
Geordie AI 这类 AI 治理公司的出现,恰恰是对这个问题的市场响应:企业需要可见性,需要知道内部有哪些 AI Agent 在运行,消耗多少资源,产出多少价值。这不是可选的功能,而是基本的管理需求。
一个被反复忽视的历史教训
1999 到 2001 年的互联网泡沫,核心逻辑是什么?
不是互联网本身没有价值。互联网当然有价值,并且在接下来的 20 年里彻底改变了每一个行业。
泡沫的核心是:在价值被实现之前,大量资本以远超实际价值的价格进入了市场。当实际价值的实现速度慢于预期,支撑这些价格的叙事开始瓦解,资本开始撤退,雪崩随之而来。
这一次的 AI 泡沫(如果它确实是泡沫的话),有几个结构性的相似点。
第一,用户的采纳速度远快于商业闭环的建立速度。ChatGPT 在推出两个月内获得了 1 亿用户,但这些用户产生的商业价值,绝大多数还没有被封装进可计量的商业模式中。企业在大规模部署 AI 工具,但”如何从这些工具中获得可测量的商业回报”这个问题,在大多数企业里还没有答案。
第二,基础设施投资的规模已经大到难以回头。Anthropic 签署了与 Amazon 5 千兆瓦算力、Google/Broadcom 5 千兆瓦 TPU、SpaceX GPU 的协议。Nvidia 宣布每年在台湾投入 1500 亿美元。这些数字本身就是一种锁定——投资者和合作伙伴已经把资本押注在 AI 持续增长的假设上,如果增长放缓,这些承诺的压力会从多个方向同时到来。
第三,最快速成长的市场往往也是泡沫最容易形成的市场。Anthropic 从 $380 亿估值跃升到 $9650 亿,用了不到两年时间——这是人类商业史上最快的估值增长之一。快速增长背后,是大量资本在追逐有限的真实使用场景,而不是在为已经被证明的价值定价。
这次与互联网泡沫的关键区别
但是,公平地说,这一次也有几个重要的不同。
技术的成熟度更高。1999 年的互联网泡沫高峰期,网络带宽勉强够流媒体,电子商务的支付系统还在摸索,移动互联网还要等 10 年。但 2026 年的 AI 已经能够编写接近生产质量的代码、处理复杂的法律文书、执行多步骤的研究任务。技术本身是真实有效的,这和 Pets.com 那个时代的水分程度不同。
商业化路径更清晰。Cognition 的 Devin 写出 89% 的代码,Salesforce 的 Agentforce 替代了需要增加的工程师——这些案例是真实的,不是 PowerPoint 里的演示。虽然 ROI 数字还存在争议,但价值本身不是幻觉。
监管与治理正在同步发展。欧盟 AI Office 将于 2026 年 8 月正式启动执法权,Anthropic Mythos 模型在欧洲受到格外审视,这说明治理机制正在跟上技术发展的步伐——这比互联网时代的监管迟滞要好得多。
但这些差异能否抵消结构性风险?目前还没有人知道答案。
因为当一个行业里越来越多的参与者开始私下承认「我们烧了很多钱,但讲不清楚为什么」
Marcus 的预测——”Brace for bailouts”——可能是夸张的警示,也可能是准确的预言。我们大约 12 到 18 个月后才会知道答案。
但现在最重要的一步,是让这个问题从私下的饭桌讨论,变成公开的商业决策。
具体来说:
对于企业决策者,现在需要回答的问题不是”我们是否在使用 AI”,而是”我们使用 AI 的支出结构是什么,哪些投入已经有可量化的回报,哪些还在等待”。没有答案不是失败,但对这个问题视而不见,才是风险所在。
对于投资者,评估 AI 公司的框架需要从”增长速度”转向”ROI 可证明性”。那些能帮助企业用更少的 AI 资源做更多事情的公司,比那些仅靠增加用量获得收入的公司,具有更持久的商业价值。
对于 AI 公司本身,核心竞争力不再只是模型能力,而是帮助客户测量和证明价值的能力。Anthropic、OpenAI、以及所有 AI 工具供应商,都需要开始正面回答这个问题:你的客户花的钱,究竟值不值?
区别能讲清楚这个答案的企业,和讲不清楚的企业——将会是接下来 AI 行业下半场最重要的判断力。
那张 FT 的负 ROI 数据截图,转发了 340 次,说明这个问题已经足够尖锐。现在它需要变成行动。
参考资料
- Gary Marcus, “Breaking: bad news for three of the biggest IPOs in history” (Substack, 2026-05-28) - https://garymarcus.substack.com/p/breaking-bad-news-for-three-of-the
- @AskYoshik via X,FT AI ROI 数据截图 (2026-05-28),引用自 Marcus 文章
- Fortune, “Microsoft drops Claude Code after burning annual AI budget in 4 months” (2026-05-22) - https://fortune.com/2026/05/22/microsoft-ai-cost-problem-tokens-agents/
- Fortune, “Salesforce CEO: AI slashes white-collar jobs, only sales still hiring” (2026-05-28) - https://fortune.com/2026/05/28/ai-slashes-white-collar-jobs-salesforce-ceo-marc-benioff-one-department-still-hiring-sales/
- CNBC, “Salesforce Agentforce ARR hits $1.2B, up 205% YoY” (2026-05-27) - https://www.cnbc.com/2026/05/27/salesforces-beat-fails-to-convince-market-that-software-can-survive-ai.html
- CNBC, “Anthropic tops OpenAI as most valuable AI startup, nears $1T valuation” (2026-05-28) - https://www.cnbc.com/2026/05/28/anthropic-open-ai-startup-value.html
- TechCrunch, “Cognition raises $1B at $26B valuation — Devin writes 89% of its own code” (2026-05-29) - https://techcrunch.com/2026/05/29/cognitions-scott-wu-says-ai-coding-agents-shouldnt-replace-humans/
- Fortune, “Geordie AI raises $30M Series A for AI agent governance platform” (2026-05-28) - https://fortune.com/2026/05/28/geordie-security-governance-ai-agents/
- Fortune, “Microsoft building AI ‘super app’ combining GitHub Copilot, chat, and Autopilot” (2026-05-29) - https://fortune.com/2026/05/29/microsoft-working-on-super-app/
- Karthik Hariharan via X (2026-05-26),引用自 Marcus 文章
- Anthropic, “Introducing Claude Opus 4.8” (2026-05-28) - https://www.anthropic.com/news/claude-opus-4-8