「代币最大化」的终局：当企业AI支出开始产生负回报，下一个泡沫破裂的预演已经开始

2026年5月28日，纽约大学名誉教授 Gary Marcus 在 Substack 发布了一篇措辞罕见尖锐的文章，标题是《Breaking: bad news for three of the biggest IPOs in history》。

他引用的数据来自《金融时报》（Financial Times）：在最乐观的假设下，微软的 AI 投资回报率是 -9%，谷歌是 -15%，Meta 是 -28%，甲骨文是 -35%。只有亚马逊勉强转正。

Marcus 的结论只有四个字：”Brace for bailouts”。

这篇文章的阅读量在 48 小时内超过 97000 次，被转发 340 次。不是因为 Marcus 是预言家，而是因为很多人在等待这句话——一句敢于说”皇帝没有穿衣服”的话。

什么是「代币最大化」，以及它为什么短暂有效

2026 年第一季度，有一个词在企业 AI 圈里悄悄流行：tokenmaxxing。

这个词的意思很直白：鼓励员工尽可能多地使用 GenAI，不计较短期 ROI，就像当年推行 SaaS 订阅时的战略一样——先用起来，再考虑值不值。

背后的逻辑有几层。第一层：AI 工具需要时间才能产生价值，在早期阶段计较每一笔使用的成本回报率太保守了，等竞争对手先学会使用再追赶就来不及了。第二层：AI 的价值不是线性的，存在学习曲线——员工用得越多，越能发现哪些场景真正有效，而这个发现过程本身就是价值。第三层，也是最关键的一层：竞争对手都在用，你不用就是在主动落后。

这个逻辑在 2026 年初确实驱动了 Anthropic 和 OpenAI 的收入爆发。

Anthropic 完成了 650 亿美元 Series H 融资，估值 9650 亿美元，年化收入超过 470 亿美元。这组数字看起来像是胜利的证明，像是 AI 时代的商业奇迹。

但 Marcus 的原话在提醒另一个现实：”tokenmaxxing 可能拉高了 Anthropic 的第二季度业绩，但这种模式从一开始就不可持续。没有人会对某个月意外烧掉 5 亿美元感到舒适。”

5 亿美元消失的一个月，以及没有名字的「某公司」

Yahoo Finance 本周报道了一个案例，但刻意没有披露企业名称：某公司单月在 Claude AI 上花费了 5 亿美元。

这个数字是什么量级？Anthropic 年化收入约为 470 亿美元，折算月均约 39 亿美元——这家匿名企业一家就贡献了大约 13% 的月收入。

更具讽刺意味的是，Fortune 同期报道了一个有名字的案例：微软 Experiences & Devices 部门（负责 Windows、Microsoft 365、Teams 等核心产品线）在 2025 年 12 月引入 Claude Code 后，4 个月内耗尽了全年的 AI 编码预算。

这个部门不是某个小实验室，是微软最核心的产品线之一，拥有数以千计的工程师。公司计划在 2026 年 6 月 30 日终止大部分内部 Claude Code 许可证，转向成本更低的 GitHub Copilot CLI——讽刺的是，GitHub Copilot 本身也是 Anthropic 技术支持的，只是商业模式不同。

这两个案例的共同点是：大量资金进去了，但没有等价的可量化产出出来。

如果说这只是两个极端案例，还不足为信。但接下来 Uber 说的话，让整件事的性质变了。

Uber COO 说了一句让整个行业沉默的话

2026 年 5 月下旬，Uber 首席运营官在一次分析师会议上说：

“越来越难以证明 AI 支出与任何有意义的功能提升之间存在关联。”

这句话的分量超过了任何一个分析师报告。Uber 是企业 AI 的早期且重度使用者，在 AI 转型战略上的投入和决心不逊于任何一家大型科技公司。如果连 Uber 都无法为 AI 支出构建清晰的商业闭环，那些 AI 采用速度更慢、数字化程度更低的传统制造业、零售业、金融业企业，情况会是什么？

Ed Zitron 在 X 上评论说：”这是第一次有公司直接说出这句话。”这个观察本身就是一个信号——很多公司有同样的困惑，只是没人愿意先开口。

风险投资人、初创公司创始人 Karthik Hariharan 随后转发，配文更直接：

“同样的对话正在整个科技行业发生，很多人早就看到了。代币被烧掉了数百万美元，没有任何真实的重大 ROI 可以展示。OpenAI 和 Anthropic 最大的企业客户都在往里砸 FDE（Field Development Engineers，客户成功工程师），试图留住他们。”

“Tokens got burned for millions of dollars without any real significant ROI to show for it”——Marcus 在他的文章里引用了这句话，并写道：这可能是整个 AI 时代的墓志铭。

那张 FT 数据截图，以及它为什么如此重要

Marcus 文章中真正引爆讨论的，是他引用的一张截图，内含《金融时报》的分析数据。推特账号 @AskYoshik 转发时写道：”AI 数据开始变得非常难看。”

公司	AI 投资回报率（最乐观假设）
微软	-9%
谷歌	-15%
Meta	-28%
甲骨文	-35%
亚马逊	略微为正

数据来源说明：上述数字来自《金融时报》（Financial Times）的分析报告，由推特账号 @AskYoshik 整理截图，Gary Marcus 在其 Substack 文章中引用转发。该数据因缺乏直接引用原始 FT 报告链接，属于二次引用，具体方法论尚待 FT 原文验证；但鉴于《金融时报》的权威来源性，以及 Marcus 本人的学术身份，数据本身的参考价值仍然成立。

这张截图在 48 小时内获得了 109 条回复，340 次转发，1460 个点赞。

有趣的是，只有亚马逊略微为正。这绝非偶然——亚马逊的 AI 投资重心是 AWS 算力基础设施（Trainium、Inferentia 芯片系列、Bedrock 平台），这些投资以提供 AI 计算服务为核心，而非以消费 AI 服务为核心。建设卖铲子的生意，和买铲子去挖矿，是完全不同的 ROI 曲线。

理解这组数据，至少有三种路径：

路径 A：投资周期论。 AI 基础设施建设本身需要巨额资本支出，短期账面上 ROI 为负是正常现象。亚马逊的 AWS 本身就是最好的对照实验——互联网泡沫期间建设的数据中心在当时都是亏损的，但 10 年后这些基础设施支撑了数千亿美元的云计算业务。AI 算力的投资可能正处于这个阶段。

但这个比喻有一个关键的不对称：AWS 是亚马逊主动建设的基础设施，而这些公司采购的是别人的算力（NVIDIA 的 GPU、云厂商的基础设施）。投资周期论在内部建设时成立，在采购别人服务时逻辑要弱得多。如果采购带来的只是账面成本上升，而不是核心竞争力的构建，那等待期就没有意义。

路径 B：测量失败论。 知识工作者的生产力提升很难被准确测量。一个工程师用 Claude Code 写代码快了 40%，但这 40% 对应什么？如果他的薪资没变，公司节省的只是”假设他用这 40% 时间做了同等价值工作”的机会成本。但如果他实际上把节省的时间用于刷 X、开会、或者修复 AI 生成代码的 bug，那 ROI 就是负的。

知识工作的生产力测量本来就是经济学的难题，引入 AI 之后这个问题更加复杂——因为 AI 引入了一种新的错误类型：置信度很高但实际错误的输出。修复这类错误的成本，往往不出现在 AI 账单里，而是隐藏在工程师的调试时间和法务审查里。

路径 C：Marcus 的结构性危机论。 这是最悲观的解读。如果 FT 的投影是正确的，这不是周期问题，不是测量问题，而是 AI 目前阶段的能力根本不足以覆盖其成本。Marcus 的核心论点是：AI 系统目前仍然不够可靠，用于高价值任务的错误率过高，修复错误的隐性成本被系统性地低估了。

他在文章中直接写道：”Brace for bailouts”——这三个字是一个明确的预警：他认为部分押注 AI 浪潮的企业可能面临财务困境，而规模足够大时，市场会要求某种形式的救助。

Anthropic 的困境：越成功越脆弱？

这里有一个让 Anthropic 处境复杂的悖论。

Marcus 明确指出：tokenmaxxing 时代最大的受益者是 Anthropic 和 OpenAI。 企业大批开通 Claude 和 ChatGPT 账号，是这两家公司 2026 年第一季度收入爆发的核心驱动之一。

Anthropic 刚刚以 9650 亿美元估值完成 650 亿美元的 Series H 融资。这组数字看起来是绝对的胜利——公司创始于 2021 年，5 年不到就接近万亿估值，在 AI 领域超越 OpenAI 成为全球最高估值初创公司。

但如果 tokenmaxxing 真的正在退潮，这份营收的可持续性就面临根本性的审问：当企业开始要求 AI 支出产生可量化的 ROI，那些最大的”tokenmaxxing”受益者，是否也是最大的受害者？

更复杂的是 AI Agent 产品线的经济逻辑。Anthropic 的 Opus 4.8 和未来的 Agent 工具链，调用消耗的 token 量是普通查询的数十倍甚至数百倍。Bun 创始人用 Claude Code 动态工作流在 11 天内将 75 万行代码从 Zig 移植到 Rust，这个任务令人印象深刻——但它消耗的算力成本是多少？与雇用工程师完成同等工作相比，ROI 是多少？

矛盾在于：越先进的 AI 能力越贵，越贵的 AI 越需要证明 ROI，但越先进的 AI 往往越难测量 ROI（因为它执行的是更复杂、更难量化价值的任务）。

Salesforce 的案例：成功者的另一面

并非所有数据都是悲观的。Salesforce Q1 FY27 财报给出了一组完全不同的数字：

Salesforce CEO Marc Benioff 在财报电话会上透露，公司工程师团队规模两年来几乎没有增长（约 1.5 万人），AI 带来的生产力提升使得公司几乎只在销售部门扩招。Agentforce 平台 ARR 达到 12 亿美元，同比增长 205%，季度内成交 98 笔交易创纪录。

这组数字表面上看是 AI 成功的证明：用 AI 代理代替了需要增加的工程师，成本节约了，同时业务还在增长。

但仔细看，这个故事有另一面。冻结工程师团队两年，意味着企业 AI 带来的”效率提升”，实际上是以不增加工程师为代价的——节省的是那 1.5 万工程师的扩编成本，而不是在同等员工规模下让产出翻倍。这是一种重要的区别：AI 帮助避免了成本增加，但尚未系统性地把已有成本转化为新的价值。

这也许是 AI 在企业中最真实的现状：它擅长”让现有工作做得更快”，但在”创造以前无法实现的新商业模式”这件事上，能给出清晰正向 ROI 的案例依然稀少。

两种未来：消化期 vs. 结构性风险

面对这组数据，AI 行业的反应大致分成两个阵营。

乐观派的叙事：这是正常的技术采纳 S 曲线。企业从”实验”向”规模化”阶段过渡，中间一定有一段投入大于产出的时期。电气化、互联网、移动互联网都经历过这个阶段，那些坚持下去的企业最终收获了指数级的回报。那些真正完成 AI 深度集成的企业——Cognition 用 Devin 写 89% 的代码，Palantir AI 平台支持 7 名销售员管理 7000 名 AI”员工”——已经在展示 AI 带来的商业可能性。

悲观派的叙事（Marcus 的立场）：AI 的核心问题是可靠性不足（still unreliable），用 AI 执行真实的高风险任务，错误率仍然高于人类在同等任务上的表现。企业用 AI”加速”的同时，引入了新的错误修复成本，这些成本往往不在 AI 的账单里，而是分散在整个组织里，以”工程师的调试时间”、”法务的审查工时”、”客服的投诉处理”等形式存在。净值可能是负的，只是看不见。

这两种叙事都有数据支撑，但方向完全相反。

Marcus 的文章之所以触动了这么多人，是因为他说出了一个无人愿意先开口的可能性：不是每个 AI 投资都会有回报，不是所有参与者都会成为赢家，有些企业会是这轮浪潮中的败者——而且人数可能远超过现在大多数人愿意承认的数目。

已经在发生的：预期的修正

这场讨论的实际影响，已经在多个层面开始展开：

企业层面：预算重审开始。 Forbes 报道微软正在开发统一的 AI 超级应用，将 GitHub Copilot、Copilot Chat、Copilot Cowork 和代号 Autopilot 的新代理工作流能力整合为一，解决多个 Copilot 产品碎片化的管理成本问题。背后逻辑之一是降低企业的 AI 管理复杂性——如果几个 AI 工具都在烧钱，但没人说得清楚哪个真正有用，整合是必然的。

创业生态：治理需求出现。 伦敦初创 Geordie AI 本周完成 3000 万美元 A 轮融资，这家公司的产品专门用于”发现、映射和约束企业内所有 AI Agent 的行为”。这个需求的出现本身就是一个信号：当企业发现自己已经不清楚内部有多少 AI Agent 在运行、它们在消耗多少算力时，”可见性”和”治理”就成了迫切需求——而不是又一个功能。

投资生态：叙事开始转变。 Gartner 调查显示，80% 试行自主 AI 技术的企业已经裁员，但裁员并没有带来有意义的财务回报。这个数据让一个问题变得尖锐：企业裁员节省的人力成本，究竟有多少进了 AI 的账单，而不是回到利润表上？

市场层面：资金轮动已经开始出现。 Dell Q1 FY2027 AI 服务器收入同比暴涨 757%，ServiceNow 单日涨 14%，Palantir 涨 10%——这些数字说明，资本市场正在用脚投票，支持”AI 基础设施”和”AI 能力平台”，而不是”AI 服务订阅”。这是一个重要的方向信号：投资者开始相信，真正的价值在于建设能力，而不是消费能力。

第三视角：「健康摆回」还是「危机开始」

Micro1 CEO Ali Ansari 在 Axios 的采访中把企业 AI 使用的收缩叫做”healthy swing away from AI overuse”——企业正在从过度使用 AI 中进行”健康的摆回”。

这个说法本身就值得玩味。

“健康摆回”意味着系统在修正过度偏差，最终会达到均衡。”危机开始”意味着问题比表面看起来更深，偏差本身是结构性的，修正的痛苦会超出预期。

现在的问题是，我们还处在分辨这两种可能性所需要的时间节点之前。

但有一件事是确定的：ROI 这个词，将在接下来 12 个月里成为整个 AI 行业最重要的叙事框架。

比产品发布更重要。比模型参数更重要。也比估值里的 9 位数更重要。

更深的问题：AI 是一种工具，还是一种瘾？

我们需要直接面对一个令人不舒服的问题：在 tokenmaxxing 现象的背后，是否存在一种更基本的认知扭曲？

现代企业对 AI 的使用方式，和对互联网、移动应用的使用方式存在一个重要差异：AI 的使用被设计为”越用越顺”——模型会根据反馈改进，用户界面被精心设计为减少摩擦，而消费的计量方式（token）是不透明的。

大多数企业员工不知道一次 Claude 对话消耗了多少 token，就像大多数人不知道一次 Instagram 浏览消耗了多少服务器资源一样。差异在于：Instagram 的商业模式是通过广告变现用户注意力，AI 的商业模式是直接向用户计费。当消费是看不见的，用户的抑制机制就会失效。

这就是为什么会出现”某公司单月在 Claude 上花 5 亿美元”这种事——不是因为有人刻意批准了这笔支出，而是因为没有人知道这笔支出正在发生，直到账单来了。

这个问题有一个学术名字叫”可见性赤字”（visibility deficit）：当技术成本被封装在订阅或按量计费的黑盒里，组织的消费决策机制就会失效。历史上，企业邮件系统、SaaS 订阅的泛滥都有这个问题，但 AI 的成本弹性是完全不同量级的——一个员工用 AI Agent 执行任务，成本可能是手动操作的 100 倍，而在账单出来之前没有任何警示。

Geordie AI 这类 AI 治理公司的出现，恰恰是对这个问题的市场响应：企业需要可见性，需要知道内部有哪些 AI Agent 在运行，消耗多少资源，产出多少价值。这不是可选的功能，而是基本的管理需求。

一个被反复忽视的历史教训

1999 到 2001 年的互联网泡沫，核心逻辑是什么？

不是互联网本身没有价值。互联网当然有价值，并且在接下来的 20 年里彻底改变了每一个行业。

泡沫的核心是：在价值被实现之前，大量资本以远超实际价值的价格进入了市场。当实际价值的实现速度慢于预期，支撑这些价格的叙事开始瓦解，资本开始撤退，雪崩随之而来。

这一次的 AI 泡沫（如果它确实是泡沫的话），有几个结构性的相似点。

第一，用户的采纳速度远快于商业闭环的建立速度。ChatGPT 在推出两个月内获得了 1 亿用户，但这些用户产生的商业价值，绝大多数还没有被封装进可计量的商业模式中。企业在大规模部署 AI 工具，但”如何从这些工具中获得可测量的商业回报”这个问题，在大多数企业里还没有答案。

第二，基础设施投资的规模已经大到难以回头。Anthropic 签署了与 Amazon 5 千兆瓦算力、Google/Broadcom 5 千兆瓦 TPU、SpaceX GPU 的协议。Nvidia 宣布每年在台湾投入 1500 亿美元。这些数字本身就是一种锁定——投资者和合作伙伴已经把资本押注在 AI 持续增长的假设上，如果增长放缓，这些承诺的压力会从多个方向同时到来。

第三，最快速成长的市场往往也是泡沫最容易形成的市场。Anthropic 从 $380 亿估值跃升到 $9650 亿，用了不到两年时间——这是人类商业史上最快的估值增长之一。快速增长背后，是大量资本在追逐有限的真实使用场景，而不是在为已经被证明的价值定价。

这次与互联网泡沫的关键区别

但是，公平地说，这一次也有几个重要的不同。

技术的成熟度更高。1999 年的互联网泡沫高峰期，网络带宽勉强够流媒体，电子商务的支付系统还在摸索，移动互联网还要等 10 年。但 2026 年的 AI 已经能够编写接近生产质量的代码、处理复杂的法律文书、执行多步骤的研究任务。技术本身是真实有效的，这和 Pets.com 那个时代的水分程度不同。

商业化路径更清晰。Cognition 的 Devin 写出 89% 的代码，Salesforce 的 Agentforce 替代了需要增加的工程师——这些案例是真实的，不是 PowerPoint 里的演示。虽然 ROI 数字还存在争议，但价值本身不是幻觉。

监管与治理正在同步发展。欧盟 AI Office 将于 2026 年 8 月正式启动执法权，Anthropic Mythos 模型在欧洲受到格外审视，这说明治理机制正在跟上技术发展的步伐——这比互联网时代的监管迟滞要好得多。

但这些差异能否抵消结构性风险？目前还没有人知道答案。

因为当一个行业里越来越多的参与者开始私下承认「我们烧了很多钱，但讲不清楚为什么」

Marcus 的预测——”Brace for bailouts”——可能是夸张的警示，也可能是准确的预言。我们大约 12 到 18 个月后才会知道答案。

但现在最重要的一步，是让这个问题从私下的饭桌讨论，变成公开的商业决策。

具体来说：

对于企业决策者，现在需要回答的问题不是”我们是否在使用 AI”，而是”我们使用 AI 的支出结构是什么，哪些投入已经有可量化的回报，哪些还在等待”。没有答案不是失败，但对这个问题视而不见，才是风险所在。

对于投资者，评估 AI 公司的框架需要从”增长速度”转向”ROI 可证明性”。那些能帮助企业用更少的 AI 资源做更多事情的公司，比那些仅靠增加用量获得收入的公司，具有更持久的商业价值。

对于 AI 公司本身，核心竞争力不再只是模型能力，而是帮助客户测量和证明价值的能力。Anthropic、OpenAI、以及所有 AI 工具供应商，都需要开始正面回答这个问题：你的客户花的钱，究竟值不值？

区别能讲清楚这个答案的企业，和讲不清楚的企业——将会是接下来 AI 行业下半场最重要的判断力。

那张 FT 的负 ROI 数据截图，转发了 340 次，说明这个问题已经足够尖锐。现在它需要变成行动。

参考资料

Gary Marcus, “Breaking: bad news for three of the biggest IPOs in history” (Substack, 2026-05-28) - https://garymarcus.substack.com/p/breaking-bad-news-for-three-of-the
@AskYoshik via X，FT AI ROI 数据截图 (2026-05-28)，引用自 Marcus 文章
Fortune, “Microsoft drops Claude Code after burning annual AI budget in 4 months” (2026-05-22) - https://fortune.com/2026/05/22/microsoft-ai-cost-problem-tokens-agents/
Fortune, “Salesforce CEO: AI slashes white-collar jobs, only sales still hiring” (2026-05-28) - https://fortune.com/2026/05/28/ai-slashes-white-collar-jobs-salesforce-ceo-marc-benioff-one-department-still-hiring-sales/
CNBC, “Salesforce Agentforce ARR hits $1.2B, up 205% YoY” (2026-05-27) - https://www.cnbc.com/2026/05/27/salesforces-beat-fails-to-convince-market-that-software-can-survive-ai.html
CNBC, “Anthropic tops OpenAI as most valuable AI startup, nears $1T valuation” (2026-05-28) - https://www.cnbc.com/2026/05/28/anthropic-open-ai-startup-value.html
TechCrunch, “Cognition raises $1B at $26B valuation — Devin writes 89% of its own code” (2026-05-29) - https://techcrunch.com/2026/05/29/cognitions-scott-wu-says-ai-coding-agents-shouldnt-replace-humans/
Fortune, “Geordie AI raises $30M Series A for AI agent governance platform” (2026-05-28) - https://fortune.com/2026/05/28/geordie-security-governance-ai-agents/
Fortune, “Microsoft building AI ‘super app’ combining GitHub Copilot, chat, and Autopilot” (2026-05-29) - https://fortune.com/2026/05/29/microsoft-working-on-super-app/
Karthik Hariharan via X (2026-05-26)，引用自 Marcus 文章
Anthropic, “Introducing Claude Opus 4.8” (2026-05-28) - https://www.anthropic.com/news/claude-opus-4-8