当最好的AI开始变笨：Anthropic「暗中降级」争议背后的透明度危机

2026年4月16日，一位AMD高级总监在X上发布了一份异常详细的控诉报告。他写道：「Claude已退化到无法信任执行复杂工程任务。」这不是情绪发泄——他附上了6852个session的取证数据，声称Claude的「推理深度」（他的衡量维度包括：解题步骤数量、多轮验证的次数、对边缘情况的处理质量，以及对复杂约束条件的同时满足程度）在过去数周下降了73%（注：该数据来自用户自行收集和测量，方法论尚未经第三方独立验证，但6852个session的样本量具有统计参考意义）。

这份数据，点燃了一场早已积累的怒火。

Reddit、GitHub、X上的工程师们纷纷涌出，分享着相似的体验：Claude Code开始产出冗长但空洞的代码；曾经能处理的复杂多步推理任务，现在要么给出错误答案，要么中途放弃；同样的prompt，一个月前和现在返回的结果质量判若云泥。一个每天依赖Claude处理200行Python重构的后端工程师说：「感觉从使用一位高级工程师变成了使用一位刚入职的实习生。」

Anthropic的回应，迟到了，也令许多人不满意。

「medium effort」的承认与它背后的问题

Claude Code的产品负责人Boris Cherny出面解释：团队将Claude Code的默认effort（推理努力程度）从high降低至medium，原因是用户反馈某些任务消耗了过多的token。他表示这是「对用户反馈的响应」，用户可以手动调回high模式。

这个解释在逻辑上是成立的。但它立刻产生了一个更大的问题：Anthropic在什么时候告知了用户这个变更？

答案是：在用户大规模投诉之前，没有。

翻遍Anthropic的官方博客、Claude的Release Notes、发给企业客户的邮件通知——没有任何一处在变更发生时主动告知用户：「我们修改了你在使用的产品的核心行为参数。」用户在使用一个已经被静默修改的工具，而他们浑然不知。

这是这场争议最核心的症结所在：不是能力下降本身，而是单方面变更与沉默的组合。即便你认为降低默认effort是合理的产品决策，在没有任何通知的情况下对付费用户进行这种静默变更，在软件行业的任何良好实践中都是不被接受的。

更令人担忧的是：如果这次变更没有触怒到足够多的高声量用户（比如愿意花时间整理6852个session数据的AMD总监），Anthropic可能永远不会主动承认它。整个事件的曝光，依赖的是用户的取证努力，而不是供应商的主动透明。这本身就是一个严肃的信号。

AMD总监的取证数据：数据驱动维权的新范式

值得深入审视的不只是投诉本身，而是投诉的方式和它代表的意义。

AMD高级总监的帖子代表了一种新型的「数据驱动维权」范式。他没有停留在主观描述（「感觉Claude变差了」），而是系统性地收集了6852个实际工程session的数据，对比了不同时期Claude在相似任务上的推理深度、错误率和输出质量，最终得出了「推理深度下降73%」这个量化结论。

这个方法论之所以重要，是因为它打破了AI服务供应商长期享有的一个隐性保护机制：AI输出的随机性使得性能退化很难被个体用户客观证明。

传统软件的性能退化是可测量的：响应时间延长了50毫秒，API错误率从0.1%上升到0.3%，这些都有明确的数据。但AI服务不同——每次对话都是新的，输出本身就有随机性，这使得「某次结果不好」很容易被解释为「这个任务本身更难」或「这次提示词写得不够好」，而不是「模型退化了」。

当你有6852个session的统计数据时，随机性就不再是掩护。

Fortune的深度报道还揭示了另一个细节：用户通过对照实验（相同任务在effort=high和effort=medium下的输出对比截图）进一步验证了差异的存在和规模。这种用户自发的系统性测量和公开分享，正在形成一个新的AI质量监督机制——不依赖供应商的透明度，而是依赖用户社区的集体智慧。

这种方法论的传播效应不容低估。下一次某家AI公司试图进行类似的静默变更时，用户社区已经有了成熟的工具箱来检测和证明它。

算力危机：降级是最简单的逃生舱

为了理解Anthropic为何会做出这个选择，需要先理解它们面临的现实处境。

2026年第一季度，Anthropic的年化收入从90亿美元飙升至300亿美元——4个月增长了3倍，增长引擎是Claude Code。问题在于：Claude Code是一个极度推理密集型的产品。处理一个复杂的多文件代码库重构任务，Claude所需消耗的计算资源，可能是处理同等长度普通对话的10到20倍。

当用户数量在短期内呈指数级增长时，算力供给跟不上需求增速几乎是必然的。Anthropic正在建设自有数据中心，据报道已承诺500亿美元用于此，但数据中心的建设周期以月和季度计算，无法即时响应用户增长。依赖AWS和Google Cloud的算力，同样面临容量限制和成本压力——大规模AI推理的算力成本，远高于普通云计算服务。

在这种处境下，「降低默认推理强度」成为一个看起来几乎没有显性成本的解决方案：

大多数用户不会系统性地测量，因此很可能不会察觉
节省的算力可以服务更多新用户，支撑继续增长的收入数字
无需任何基础设施投资，效果立即生效
可以用「对用户反馈的响应」来解释（确实有用户抱怨token消耗过多）

这是一个在企业内部会议室里看起来完全合理的决策。但它同时也是一个在产品诚信层面严重有问题的决策。

当用户为「顶级AI助手」每月支出数十乃至数百美元时，他们的期望建立在Anthropic过去提供的服务质量基准上。在没有任何告知的情况下单方面降低这个基准，本质上是用服务质量的静默缩水来换取利润空间的扩大。

这暴露了AI服务商业模式一个尚未被充分讨论的结构性矛盾：当AI公司追求用户数量的高速增长时，其单位算力的服务质量很可能系统性地下滑，因为固定的算力容量被稀释给了更多用户。 这与传统SaaS产品随规模扩大而提升的边际效益完全相反。

用户的合同困境：你买到的究竟是什么？

这场争议触碰到了一个更深层的结构性问题，而这个问题远不是道德谴责可以解决的——用户与AI服务商之间的合同关系，到底保障了什么？

传统软件有明确的版本号：你付费购买的是v1.5，升级到v2.0可以选择，而不是被强制迁移。API接口有版本管理和弃用通知，重大变更需要提前90天告知。SaaS服务有功能范围清单和SLA，如果服务不达标，用户有明确的申诉渠道和赔偿条款。

AI模型服务的合同框架则截然不同。Anthropic的服务条款（和大多数AI服务商一样）允许他们在任何时候修改模型行为，用户使用的是哪个「版本」的Claude，由Anthropic决定，而不是用户。

这产生了一种独特的「AI供应商道德风险」：

当推理成本上升时，降级是供应商利润最大化的最优策略。

用户无法要求针对过去已降级时段的退款（他们在使用「正常」服务时的付费，服务条款上没有质量保证）；无法强制要求恢复到原有配置（供应商保留了修改权利）；甚至难以系统性地证明降级发生了（需要AMD总监级别的取证努力）；更无法防止未来的类似变更。

AMD总监的数据之所以引发如此强烈的共鸣，正是因为它提供了罕见的「可以量化的退化证据」。但绝大多数用户——包括为Claude Code支付企业许可费用的公司——没有能力、没有资源、也没有时间进行这种系统性测量。他们只能感受到「Claude变了」，但说不清楚具体哪里变了，变了多少，更无法评估这对自己的工程效率损失有多大。

对企业用户而言，这不是一个抽象的权益问题，而是一个实际的经营风险。

一家将Claude Code作为核心开发工具的软件公司，其工程师效率预测、产品交付时间线、团队规模规划，都建立在对工具性能的某种稳定期望上。当这个工具在无通知的情况下悄然降级，所有基于此的业务决策都面临系统性偏差。而这个偏差，在被发现之前可能已经累积了数周的影响。

「能力」与「配置」的语言迷宫

这场争议还暴露了AI行业一种深层的话语策略——「能力」和「配置」的界限被刻意维持在模糊状态。

当Anthropic解释说Claude Code的effort被调低时，他们实际上是在陈述：「模型的能力没有变化，只是被配置为不全力使用。」

在技术语义上，这是准确的。引擎没有损坏，只是被限速了。

但这种技术准确性，在产品诚信层面是一种精心设计的免责逻辑：

声称「能力没有变」，保留了Anthropic在技术宣传上的一致性，避免承认「退步」
声称「用户可以手动调高effort」，将解决问题的责任转嫁给用户——要求用户首先意识到问题存在，然后找到解决方法，而不是默认提供用户应有的服务水平
避免了最直接的表述：「我们降低了你付费期望获得的服务标准」

这套话语体系将一个供应商主动做出的质量决策，包装成了一个用户可以自主管理的技术配置选项。

更微妙的是，这种区分在法律层面也很有用：只要能证明「能力本身没有降低」，就很难构成合同违约的法律依据——即便用户获得的实际服务质量确实降低了。

这是一种系统性的语言设计，服务于供应商的利益，而不是用户的利益。

透明度标准缺失：这是整个行业的结构性问题

必须承认：Anthropic不是唯一一家这样做的公司，也不是第一家。

过去两年间，OpenAI至少3次被用户集体指控「悄悄降低」GPT-4的推理质量。每次模式都相似：用户大规模投诉 → 官方否认或沉默 → 用户提供对比证据 → 官方给出模糊承认和解释 → 最终以「我们在持续改进」收场。

Google的Gemini Advanced用户也有过类似的反馈。Meta的Llama在不同部署环境下的性能差异，同样没有清晰的官方解释。

这些公司共同的特征是：没有一家建立了明确的「模型行为变更公告」标准，没有一家为用户提供了「锁定某个性能配置」的选项，也没有一家为AI服务质量建立类似SaaS的SLA保障。

软件行业的透明度基础设施，在AI服务领域几乎是空白的：

SemVer（语义化版本号）：规定向后不兼容的变更必须升级主版本号，让用户知道破坏性变更正在发生。AI服务里，没有版本号，或者版本号对用户不可见。
Changelog：软件更新的标准记录，告知每个版本变更了什么。AI模型更新几乎不发布有意义的变更日志。
API弃用通知：重大接口变更需要提前通知并给予迁移期。AI模型行为的变更，不通知。
SLA服务水平协议：明确承诺服务质量的下限，不达标时有赔偿机制。AI模型服务几乎不提供性能SLA。

这些机制的缺失，不是技术问题，是商业选择。实现透明度完全可行：在控制台显示当前推理配置；当配置发生变化时通过邮件通知；维护公开的模型行为变更历史；为企业用户提供「性能稳定性」合同条款。

这些措施没有被实施，是因为当前没有监管要求，也没有足够强的市场压力。在透明度问题导致的用户流失，远小于降低算力消耗带来的成本节省之前，这种平衡不会改变。

第三层洞察：这是AI时代的「黑暗模式」与信任经济的临界点

从行为经济学的框架来看，AI服务的「静默降级」具备经典黑暗模式的全部要素：

信息不对称：供应商完全掌握模型行为变更的信息，用户没有任何可靠的独立感知渠道。

认知利用：AI输出的随机性为退化行为提供了天然掩护，普通用户很难系统性地判断「这是模型退化」还是「这次任务特别难」。

合同不对称：服务条款保障了供应商的修改权利，没有为用户建立任何对应的保护机制。

高切换成本：当企业的工程工作流深度依赖某个AI工具，迁移成本极高，这降低了供应商维持服务质量的外部压力。

这个组合，使得「静默降级」在当前的市场环境下几乎是一个零成本的商业决策——直到触发足够大的集体投诉为止。

AMD总监的帖子获得数万次转发，不是因为它是最严谨的技术分析，而是因为它验证和量化了很多人的隐约感知。这种集体感知的形成与公开量化，代表了一个临界点：当足够多的用户开始系统性地记录和分享AI性能数据，供应商的「静默降级」就会面临越来越大的曝光风险。

这场争议的真正意义，不在于Anthropic这一次会怎么处理，而在于它代表了AI服务行业透明度问题从「个体感知」走向「集体验证」的转折点。

这是一个信号，表明AI服务商的「免费降级」时代正在走向终点。

下一阶段，我们很可能会看到：专业的AI性能基准测试服务出现（类似云服务的性能测评行业）；用户社区建立持续的AI性能监测机制；企业IT采购开始在合同中加入AI服务质量条款；监管机构开始关注AI服务的「消费者保护」问题。

每一项都将增加「静默降级」的显性成本。Anthropic这次的危机，是整个行业即将到来的账单的一张预告。

结语：AI服务业的诚信账单

2026年4月的这场风波，不会是最后一次。它代表的是一个更深层的行业周期：当AI服务从早期采用者工具变成企业核心基础设施，用户对服务质量的期望和要求也随之发生了质的转变。

早期的AI爱好者愿意接受波动，因为他们把AI当作实验性工具。但现在，有工程团队把Claude Code作为日常工作的核心依赖，有公司的产品路线图建立在AI辅助开发的效率预期上，有企业签署了年费合同。这些用户不再接受「AI本来就不稳定」的解释。

Anthropic面临的抉择，并不复杂：要么建立真正的透明度机制，把服务质量的变更权利和用户的知情权之间的关系明确化；要么在一次次的集体维权风波中，慢慢消耗掉建立品牌所需的最珍贵资产——用户信任。

所谓「最好的AI」，从来不只是能力最强，还需要是最值得信赖的。

这场争议提醒整个行业：在AI服务的商业化进程中，有一张还没有开始认真偿还的诚信账单。而且这张账单有一个不寻常的特点：它不需要等到监管强制，市场竞争本身就会开始强制偿还它——只要用户的系统性测量能力和集体维权意识达到临界点，「静默降级」就不再是零成本的商业决策。那个临界点，AMD总监的帖子，可能已经是一个早期信号。

参考资料:

Axios: Anthropic Claude power user complaints (2026-04-16)
Fortune: Anthropic Claude performance decline user complaints (2026-04-14)
The Decoder: Anthropic prepares Opus 4.7 and AI design tool (2026-04-15)

编辑注：本文中AMD高级总监发布的取证数据（6852个session，推理深度下降73%）来自该用户在X平台的公开帖子，Axios于2026年4月16日对此进行了报道并核实。Anthropic产品负责人Boris Cherny对降低默认effort的确认来自Fortune的独立采访（2026年4月14日报道）。Anthropic目前尚未就上述指控发出正式回应声明。

背景：这场争议如何在72小时内升温

理解这场争议，需要了解它是如何在短短72小时内从专业圈子的讨论演变为大规模传播的。

2026年4月14日（Fortune报道）：Fortune首次深度报道Claude性能下降争议，Claude Code负责人Boris Cherny承认降低默认effort的决定，但措辞被许多用户认为过于轻描淡写——「对用户反馈的响应」这一说法，没有提及为什么没有提前通知用户。

2026年4月16日（Axios跟进）：Axios在Fortune报道两天后跟进报道，AMD高级总监的取证帖子在同一天引发大规模传播，将用户的分散投诉凝聚成了一个可量化的集体声明，用户投诉浪潮在这一天达到峰值。

这72小时的演化轨迹值得关注：从一家权威媒体的深度报道（Fortune），到一个高声量用户的数据佐证帖，到更大范围的媒体跟进（Axios），这是一种典型的科技行业信任危机的舆论发酵路径。Anthropic在这个过程中保持沉默，直到投诉声浪不可忽视时才被动回应，错过了主动控制叙事的最佳时机。

当最好的AI开始变笨：Anthropic「暗中降级」争议背后的透明度危机

「medium effort」的承认与它背后的问题

AMD总监的取证数据：数据驱动维权的新范式

算力危机：降级是最简单的逃生舱

用户的合同困境：你买到的究竟是什么？

「能力」与「配置」的语言迷宫

透明度标准缺失：这是整个行业的结构性问题

第三层洞察：这是AI时代的「黑暗模式」与信任经济的临界点

结语：AI服务业的诚信账单

背景：这场争议如何在72小时内升温

Tags:

About

Categories

Recent Posts

Resources