2026年4月16日,一位AMD高级总监在X上发布了一份异常详细的控诉报告。他写道:「Claude已退化到无法信任执行复杂工程任务。」这不是情绪发泄——他附上了6852个session的取证数据,声称Claude的「推理深度」(他的衡量维度包括:解题步骤数量、多轮验证的次数、对边缘情况的处理质量,以及对复杂约束条件的同时满足程度)在过去数周下降了73%(注:该数据来自用户自行收集和测量,方法论尚未经第三方独立验证,但6852个session的样本量具有统计参考意义)。

这份数据,点燃了一场早已积累的怒火。

Reddit、GitHub、X上的工程师们纷纷涌出,分享着相似的体验:Claude Code开始产出冗长但空洞的代码;曾经能处理的复杂多步推理任务,现在要么给出错误答案,要么中途放弃;同样的prompt,一个月前和现在返回的结果质量判若云泥。一个每天依赖Claude处理200行Python重构的后端工程师说:「感觉从使用一位高级工程师变成了使用一位刚入职的实习生。」

Anthropic的回应,迟到了,也令许多人不满意。

「medium effort」的承认与它背后的问题

Claude Code的产品负责人Boris Cherny出面解释:团队将Claude Code的默认effort(推理努力程度)从high降低至medium,原因是用户反馈某些任务消耗了过多的token。他表示这是「对用户反馈的响应」,用户可以手动调回high模式。

这个解释在逻辑上是成立的。但它立刻产生了一个更大的问题:Anthropic在什么时候告知了用户这个变更?

答案是:在用户大规模投诉之前,没有。

翻遍Anthropic的官方博客、Claude的Release Notes、发给企业客户的邮件通知——没有任何一处在变更发生时主动告知用户:「我们修改了你在使用的产品的核心行为参数。」用户在使用一个已经被静默修改的工具,而他们浑然不知。

这是这场争议最核心的症结所在:不是能力下降本身,而是单方面变更与沉默的组合。即便你认为降低默认effort是合理的产品决策,在没有任何通知的情况下对付费用户进行这种静默变更,在软件行业的任何良好实践中都是不被接受的。

更令人担忧的是:如果这次变更没有触怒到足够多的高声量用户(比如愿意花时间整理6852个session数据的AMD总监),Anthropic可能永远不会主动承认它。整个事件的曝光,依赖的是用户的取证努力,而不是供应商的主动透明。这本身就是一个严肃的信号。

AMD总监的取证数据:数据驱动维权的新范式

值得深入审视的不只是投诉本身,而是投诉的方式和它代表的意义。

AMD高级总监的帖子代表了一种新型的「数据驱动维权」范式。他没有停留在主观描述(「感觉Claude变差了」),而是系统性地收集了6852个实际工程session的数据,对比了不同时期Claude在相似任务上的推理深度、错误率和输出质量,最终得出了「推理深度下降73%」这个量化结论。

这个方法论之所以重要,是因为它打破了AI服务供应商长期享有的一个隐性保护机制:AI输出的随机性使得性能退化很难被个体用户客观证明。

传统软件的性能退化是可测量的:响应时间延长了50毫秒,API错误率从0.1%上升到0.3%,这些都有明确的数据。但AI服务不同——每次对话都是新的,输出本身就有随机性,这使得「某次结果不好」很容易被解释为「这个任务本身更难」或「这次提示词写得不够好」,而不是「模型退化了」。

当你有6852个session的统计数据时,随机性就不再是掩护。

Fortune的深度报道还揭示了另一个细节:用户通过对照实验(相同任务在effort=high和effort=medium下的输出对比截图)进一步验证了差异的存在和规模。这种用户自发的系统性测量和公开分享,正在形成一个新的AI质量监督机制——不依赖供应商的透明度,而是依赖用户社区的集体智慧。

这种方法论的传播效应不容低估。下一次某家AI公司试图进行类似的静默变更时,用户社区已经有了成熟的工具箱来检测和证明它。

算力危机:降级是最简单的逃生舱

为了理解Anthropic为何会做出这个选择,需要先理解它们面临的现实处境。

2026年第一季度,Anthropic的年化收入从90亿美元飙升至300亿美元——4个月增长了3倍,增长引擎是Claude Code。问题在于:Claude Code是一个极度推理密集型的产品。处理一个复杂的多文件代码库重构任务,Claude所需消耗的计算资源,可能是处理同等长度普通对话的10到20倍。

当用户数量在短期内呈指数级增长时,算力供给跟不上需求增速几乎是必然的。Anthropic正在建设自有数据中心,据报道已承诺500亿美元用于此,但数据中心的建设周期以月和季度计算,无法即时响应用户增长。依赖AWS和Google Cloud的算力,同样面临容量限制和成本压力——大规模AI推理的算力成本,远高于普通云计算服务。

在这种处境下,「降低默认推理强度」成为一个看起来几乎没有显性成本的解决方案:

  • 大多数用户不会系统性地测量,因此很可能不会察觉
  • 节省的算力可以服务更多新用户,支撑继续增长的收入数字
  • 无需任何基础设施投资,效果立即生效
  • 可以用「对用户反馈的响应」来解释(确实有用户抱怨token消耗过多)

这是一个在企业内部会议室里看起来完全合理的决策。但它同时也是一个在产品诚信层面严重有问题的决策。

当用户为「顶级AI助手」每月支出数十乃至数百美元时,他们的期望建立在Anthropic过去提供的服务质量基准上。在没有任何告知的情况下单方面降低这个基准,本质上是用服务质量的静默缩水来换取利润空间的扩大。

这暴露了AI服务商业模式一个尚未被充分讨论的结构性矛盾:当AI公司追求用户数量的高速增长时,其单位算力的服务质量很可能系统性地下滑,因为固定的算力容量被稀释给了更多用户。 这与传统SaaS产品随规模扩大而提升的边际效益完全相反。

用户的合同困境:你买到的究竟是什么?

这场争议触碰到了一个更深层的结构性问题,而这个问题远不是道德谴责可以解决的——用户与AI服务商之间的合同关系,到底保障了什么?

传统软件有明确的版本号:你付费购买的是v1.5,升级到v2.0可以选择,而不是被强制迁移。API接口有版本管理和弃用通知,重大变更需要提前90天告知。SaaS服务有功能范围清单和SLA,如果服务不达标,用户有明确的申诉渠道和赔偿条款。

AI模型服务的合同框架则截然不同。Anthropic的服务条款(和大多数AI服务商一样)允许他们在任何时候修改模型行为,用户使用的是哪个「版本」的Claude,由Anthropic决定,而不是用户。

这产生了一种独特的「AI供应商道德风险」:

当推理成本上升时,降级是供应商利润最大化的最优策略。

用户无法要求针对过去已降级时段的退款(他们在使用「正常」服务时的付费,服务条款上没有质量保证);无法强制要求恢复到原有配置(供应商保留了修改权利);甚至难以系统性地证明降级发生了(需要AMD总监级别的取证努力);更无法防止未来的类似变更。

AMD总监的数据之所以引发如此强烈的共鸣,正是因为它提供了罕见的「可以量化的退化证据」。但绝大多数用户——包括为Claude Code支付企业许可费用的公司——没有能力、没有资源、也没有时间进行这种系统性测量。他们只能感受到「Claude变了」,但说不清楚具体哪里变了,变了多少,更无法评估这对自己的工程效率损失有多大。

对企业用户而言,这不是一个抽象的权益问题,而是一个实际的经营风险。

一家将Claude Code作为核心开发工具的软件公司,其工程师效率预测、产品交付时间线、团队规模规划,都建立在对工具性能的某种稳定期望上。当这个工具在无通知的情况下悄然降级,所有基于此的业务决策都面临系统性偏差。而这个偏差,在被发现之前可能已经累积了数周的影响。

「能力」与「配置」的语言迷宫

这场争议还暴露了AI行业一种深层的话语策略——「能力」和「配置」的界限被刻意维持在模糊状态

当Anthropic解释说Claude Code的effort被调低时,他们实际上是在陈述:「模型的能力没有变化,只是被配置为不全力使用。」

在技术语义上,这是准确的。引擎没有损坏,只是被限速了。

但这种技术准确性,在产品诚信层面是一种精心设计的免责逻辑:

  • 声称「能力没有变」,保留了Anthropic在技术宣传上的一致性,避免承认「退步」
  • 声称「用户可以手动调高effort」,将解决问题的责任转嫁给用户——要求用户首先意识到问题存在,然后找到解决方法,而不是默认提供用户应有的服务水平
  • 避免了最直接的表述:「我们降低了你付费期望获得的服务标准」

这套话语体系将一个供应商主动做出的质量决策,包装成了一个用户可以自主管理的技术配置选项。

更微妙的是,这种区分在法律层面也很有用:只要能证明「能力本身没有降低」,就很难构成合同违约的法律依据——即便用户获得的实际服务质量确实降低了。

这是一种系统性的语言设计,服务于供应商的利益,而不是用户的利益。

透明度标准缺失:这是整个行业的结构性问题

必须承认:Anthropic不是唯一一家这样做的公司,也不是第一家。

过去两年间,OpenAI至少3次被用户集体指控「悄悄降低」GPT-4的推理质量。每次模式都相似:用户大规模投诉 → 官方否认或沉默 → 用户提供对比证据 → 官方给出模糊承认和解释 → 最终以「我们在持续改进」收场。

Google的Gemini Advanced用户也有过类似的反馈。Meta的Llama在不同部署环境下的性能差异,同样没有清晰的官方解释。

这些公司共同的特征是:没有一家建立了明确的「模型行为变更公告」标准,没有一家为用户提供了「锁定某个性能配置」的选项,也没有一家为AI服务质量建立类似SaaS的SLA保障。

软件行业的透明度基础设施,在AI服务领域几乎是空白的:

  • SemVer(语义化版本号):规定向后不兼容的变更必须升级主版本号,让用户知道破坏性变更正在发生。AI服务里,没有版本号,或者版本号对用户不可见。
  • Changelog:软件更新的标准记录,告知每个版本变更了什么。AI模型更新几乎不发布有意义的变更日志。
  • API弃用通知:重大接口变更需要提前通知并给予迁移期。AI模型行为的变更,不通知。
  • SLA服务水平协议:明确承诺服务质量的下限,不达标时有赔偿机制。AI模型服务几乎不提供性能SLA。

这些机制的缺失,不是技术问题,是商业选择。实现透明度完全可行:在控制台显示当前推理配置;当配置发生变化时通过邮件通知;维护公开的模型行为变更历史;为企业用户提供「性能稳定性」合同条款。

这些措施没有被实施,是因为当前没有监管要求,也没有足够强的市场压力。在透明度问题导致的用户流失,远小于降低算力消耗带来的成本节省之前,这种平衡不会改变。

第三层洞察:这是AI时代的「黑暗模式」与信任经济的临界点

从行为经济学的框架来看,AI服务的「静默降级」具备经典黑暗模式的全部要素:

信息不对称:供应商完全掌握模型行为变更的信息,用户没有任何可靠的独立感知渠道。

认知利用:AI输出的随机性为退化行为提供了天然掩护,普通用户很难系统性地判断「这是模型退化」还是「这次任务特别难」。

合同不对称:服务条款保障了供应商的修改权利,没有为用户建立任何对应的保护机制。

高切换成本:当企业的工程工作流深度依赖某个AI工具,迁移成本极高,这降低了供应商维持服务质量的外部压力。

这个组合,使得「静默降级」在当前的市场环境下几乎是一个零成本的商业决策——直到触发足够大的集体投诉为止。

AMD总监的帖子获得数万次转发,不是因为它是最严谨的技术分析,而是因为它验证和量化了很多人的隐约感知。这种集体感知的形成与公开量化,代表了一个临界点:当足够多的用户开始系统性地记录和分享AI性能数据,供应商的「静默降级」就会面临越来越大的曝光风险。

这场争议的真正意义,不在于Anthropic这一次会怎么处理,而在于它代表了AI服务行业透明度问题从「个体感知」走向「集体验证」的转折点。

这是一个信号,表明AI服务商的「免费降级」时代正在走向终点。

下一阶段,我们很可能会看到:专业的AI性能基准测试服务出现(类似云服务的性能测评行业);用户社区建立持续的AI性能监测机制;企业IT采购开始在合同中加入AI服务质量条款;监管机构开始关注AI服务的「消费者保护」问题。

每一项都将增加「静默降级」的显性成本。Anthropic这次的危机,是整个行业即将到来的账单的一张预告。

结语:AI服务业的诚信账单

2026年4月的这场风波,不会是最后一次。它代表的是一个更深层的行业周期:当AI服务从早期采用者工具变成企业核心基础设施,用户对服务质量的期望和要求也随之发生了质的转变。

早期的AI爱好者愿意接受波动,因为他们把AI当作实验性工具。但现在,有工程团队把Claude Code作为日常工作的核心依赖,有公司的产品路线图建立在AI辅助开发的效率预期上,有企业签署了年费合同。这些用户不再接受「AI本来就不稳定」的解释。

Anthropic面临的抉择,并不复杂:要么建立真正的透明度机制,把服务质量的变更权利和用户的知情权之间的关系明确化;要么在一次次的集体维权风波中,慢慢消耗掉建立品牌所需的最珍贵资产——用户信任。

所谓「最好的AI」,从来不只是能力最强,还需要是最值得信赖的。

这场争议提醒整个行业:在AI服务的商业化进程中,有一张还没有开始认真偿还的诚信账单。而且这张账单有一个不寻常的特点:它不需要等到监管强制,市场竞争本身就会开始强制偿还它——只要用户的系统性测量能力和集体维权意识达到临界点,「静默降级」就不再是零成本的商业决策。那个临界点,AMD总监的帖子,可能已经是一个早期信号。


参考资料:


编辑注:本文中AMD高级总监发布的取证数据(6852个session,推理深度下降73%)来自该用户在X平台的公开帖子,Axios于2026年4月16日对此进行了报道并核实。Anthropic产品负责人Boris Cherny对降低默认effort的确认来自Fortune的独立采访(2026年4月14日报道)。Anthropic目前尚未就上述指控发出正式回应声明。

背景:这场争议如何在72小时内升温

理解这场争议,需要了解它是如何在短短72小时内从专业圈子的讨论演变为大规模传播的。

2026年4月14日(Fortune报道):Fortune首次深度报道Claude性能下降争议,Claude Code负责人Boris Cherny承认降低默认effort的决定,但措辞被许多用户认为过于轻描淡写——「对用户反馈的响应」这一说法,没有提及为什么没有提前通知用户。

2026年4月16日(Axios跟进):Axios在Fortune报道两天后跟进报道,AMD高级总监的取证帖子在同一天引发大规模传播,将用户的分散投诉凝聚成了一个可量化的集体声明,用户投诉浪潮在这一天达到峰值。

这72小时的演化轨迹值得关注:从一家权威媒体的深度报道(Fortune),到一个高声量用户的数据佐证帖,到更大范围的媒体跟进(Axios),这是一种典型的科技行业信任危机的舆论发酵路径。Anthropic在这个过程中保持沉默,直到投诉声浪不可忽视时才被动回应,错过了主动控制叙事的最佳时机。