Claude代码质量下滑47.3%:当AI编程工具开始悄悄生产漏洞代码
2026年4月22日,Forbes《The Wiretap》网络安全专栏刊出了一篇措辞罕见严厉的报道:俄亥俄州网络安全公司TrustedSec的CEO、前NSA分析师Dave Kennedy,用自己亲手构建的测试工具,公开了一个令整个AI编程工具行业坐立难安的数字——47.3%。
这是Claude Opus 4.6发布后约5周内,代码质量的下降幅度。Kennedy的原话是:”Really bad, I mean unusably bad”(非常糟糕,我是说,糟糕到无法使用)。
TrustedSec已经停止使用Claude进行代码生成。
这件事情的背景是:2026年初,”vibe coding”运动席卷整个开发者社区。Replit、Cursor、GitHub Copilot和Claude Code每周都在创造新的使用记录。对于数以百万计的开发者来说,AI代码助手已经不是”新鲜工具”,而是日常工作流程的核心基础设施。在这个前提下,一个专业安全公司用量化数据公开指控Claude代码质量大幅退化,冲击的不只是Anthropic的产品声誉,而是整个行业对AI编程工具的信任根基。
47.3%:一个精确到小数点的指控
Dave Kennedy不是在情绪化发泄。他建立了一套系统性的自动化测试工具,专门用于评估Claude在实际工程任务上的表现,追踪4个核心维度:
- 代码整体质量:功能完整性、逻辑清晰度
- Bug数量:逻辑错误和功能性缺陷
- 安全问题:已知漏洞类型、不安全的编程模式
- 任务完成度:能否从头到尾完成一个完整的编程任务而不中断或返回错误
在这套工具的追踪数据中,从Opus 4.6发布约5周前到2026年4月22日,综合评分下降了47.3%。
“最终的风险在于,使用Claude进行编程的新手开发者不会识别这些缺陷,”Kennedy对Forbes说,”这会将严重的安全缺陷引入生产环境。这是非常令人担忧的事情。”
Kennedy还提到,Opus 4.7(Claude最新版本)”边际上好一些”,但仍然没有恢复到Opus 4.6刚发布时的质量水平。换句话说,更新版本的模型,比最初版本的旧模型还要差。
这个细节需要停下来仔细咀嚼:Anthropic发布了一个被明确标榜为”更强大”的新模型(Opus 4.7),但在实际代码安全性测试中,它的表现不如旧模型(Opus 4.6初始版本)。
这打破了用户一个常识性假设:新模型 = 更好的结果。
不是孤立的声音:Veracode的数据和AMD高管的公开证言
Kennedy的批评之所以迅速引发共鸣,是因为他说出的不是孤立事件,而是一个已经在多个维度上被数据反复验证的模式。
Veracode的系统性测试:超过一半的代码含安全漏洞
代码安全公司Veracode过去一年持续用同一套标准化方法测试各大AI系统:布置80道编程任务,统计有多少次输出的代码包含可被利用的安全漏洞。
结果令人震惊:
| 模型 | 漏洞率 |
|---|---|
| Claude Opus 4.7 | 52% |
| Claude Opus 4.1(旧版) | 51% |
| Claude Sonnet 4.5(低配版) | 50% |
| OpenAI模型 | 约30% |
三个关键发现值得单独拎出来:
第一,Claude系列近一年的漏洞率没有实质性改善。从Opus 4.1到Sonnet 4.5到Opus 4.7,三个版本的漏洞率分别是51%、50%、52%——虽然数字之间存在小幅波动,但Anthropic近一年来发布的所有主要Claude版本,安全性始终在50-52%的高位区间徘徊,最新的旗舰版本Opus 4.7的漏洞率(52%)甚至是其中最高的。
第二,OpenAI模型的表现差异显著。同样的80道任务,OpenAI模型的漏洞率约30%,比Claude的52%低了将近一半。这个差距,在安全关键场景中,可能就是灾难与正常运营之间的分界线。
第三,Claude的更高配置版本不等于更安全。Opus 4.7是比Sonnet 4.5更贵、更”强大”的模型,但漏洞率(52%)反而高于Sonnet 4.5(50%)。这再次打破了”更贵 = 更安全”的直觉假设。
Veracode首席创新官Jens Wessling的分析直击问题核心:
“这些数据支持了用户关于模型退化的声明。我相信这些模型被训练成编写能运行的代码,而不是持续应用让软件安全的控制措施。在没有对代码验证和修复方式进行改变的情况下,净效果看起来是更多有bug或有漏洞的软件,而不是更少。”
这句话揭示了一个AI编程工具行业的深层张力:功能性(代码能跑起来)和安全性(代码不会被攻击者利用)是两个不同的优化目标。在互联网训练数据中,展示”如何实现XX功能”的代码样本远多于展示”如何安全地实现XX功能”的代码样本——这个数据偏差,最终体现为模型行为的偏差。
AMD高管的公开声明:复杂工程任务不可信
来自AMD——一家AI芯片公司——内部AI工程团队的批评,让这场质量争议从安全领域蔓延到了更广泛的工程能力范畴。
AMD的一位AI高管在GitHub上公开写道,她的团队观察到Claude的”思考变得如此浅薄,以至于不能被信任执行复杂的工程任务”。
这个细节格外值得关注。这不是外部评测机构的实验室数据,而是来自实际工程实践的观察。AMD的AI团队在使用Claude辅助实际芯片设计或软件开发工作,在这个过程中感受到了质量的退化。
更讽刺的是:AMD是AI芯片的制造商,他们自己的团队却因为对AI软件工具的质量失去信任而公开发声。
Reddit和X:汇聚成海洋的集体投诉
Kennedy、Veracode和AMD的观察,只是有记录、有数据的冰山一角。Forbes报道中提到,数十名曾经满意的Anthropic用户在2026年3-4月期间涌向Reddit和X,发表了类似的使用体验报告——时间上,恰好与Opus 4.6发布约两个月后高度吻合。
在Reddit的r/ClaudeAI社区,一条标题为”Claude has gotten dramatically worse at coding”的帖子在几天内获得超过3,000个赞和800条评论,评论者描述的体验高度一致:写出的代码开始包含冗余逻辑、跳过边界条件检查、以及使用已被弃用的安全模式。一位高票评论写道:”I used to feel like I was pairing with a senior engineer. Now it feels like I’m babysitting an over-confident junior.”(我过去感觉像是在和一位高级工程师结对编程。现在感觉像是在照顾一个过于自信的初级工程师。)
这种集体性的使用体验倒退,在AI工具历史上也有前例。2023年6月,斯坦福和UC伯克利研究人员发表论文,记录了GPT-4在数学推理任务上几个月内显著退化的现象,OpenAI最终承认该现象存在。Claude的这次质量问题,让历史出现了某种不令人舒适的重演。
Anthropic的回应:沉默,和工程师推文里的一条关键线索
Anthropic对这场质量危机的官方立场是:正在积极调查关于Opus退化的说法,并建议”工程师应该始终检查漏洞”。
这个回应本身无可争议,但它同时也在无意中承认了一个现实:AI生成的代码不能被默认信任——哪怕你为这个”不可信任的工具”每月支付了100美元的订阅费。
然而,真正值得关注的细节,来自Claude Code负责人Boris Cherny在更早些时候发布的一条推文。他透露:Anthropic在某个时间点,主动将Claude在编辑代码之前的“思考努力程度”从”高”调低到了”中”。
原因是:回应用户关于token消耗过多的投诉。
这条信息解释了很多事情,也开启了一个更深层的问题。
Token经济学与代码质量之间的隐性替代关系
Claude的”扩展思考”(Extended Thinking)功能允许模型在给出答案之前进行更深入的内部推理。这个推理过程消耗token,而token对应的是计算成本,也对应着用户的账单。
当用户抱怨”Claude用了太多token”时,有两种可能的解读:一是使用效率低下(重复无效推理),二是推理深度超出用户需求。Anthropic似乎选择了一个简单的解决方案:降低默认的思考努力程度。
这个决策创造了一个对用户完全不透明的质量变更:
- 没有变更日志说明这一调整
- 没有安全公告说明可能的影响
- 没有选项让用户选择”保持高推理深度模式”(尽管在某些场景可以手动调整)
- 用户的体验是:同样的请求,同样的价格,但输出的质量悄悄降低了
这种情况,在传统软件行业,相当于一家云服务公司在没有通知的情况下,把你的服务器配置从8核降到了4核——因为其他用户抱怨机房用电量太高。
“我们到底能信任谁?”
Kennedy在采访中问了这样一个问题,也是他决定建立自己的本地AI基础设施的出发点。
“谁可以让我们真的信任?”
这个问题背后的逻辑是:当AI云服务提供商可以在任何时候、在没有通知的情况下改变模型的行为,而这种改变会直接影响到依赖这个模型的代码的安全性,安全专家的自然反应就是把这个变量拉回自己的控制范围之内。
Kennedy表示,他正在构建公司自己的本地AI基础设施,运行他能控制的定制模型。这意味着固定的版本、可验证的行为、以及不会被”思考深度调整”偷偷改变的安全属性。
公平地说:Anthropic面临的真实困境
批评很容易,理解困境更难。在讨论行业解决方案之前,有必要诚实地陈述Anthropic(以及整个AI工具行业)实际面临的复杂性。
困境一:质量是多维度的,没有可以同时优化的单一指标。
一个更”安全”的代码生成策略,意味着更多的内部推理步骤(更多thinking)、更保守的代码风格(更少尝试新模式)、更频繁的不确定性表达(”这个我不确定”)。这些特征在安全测试中得分更高,但在用户体验上可能被打分为”太慢”、”太保守”、”不够灵活”。
当Anthropic调低thinking effort是因为用户抱怨token成本过高——他们在响应一个真实的用户需求,而不是任意降低标准。问题不是”Anthropic选择了错误的指标”,而是”在没有公开讨论这个取舍的情况下,单方面做了决定”。
困境二:Veracode的52%数字有其方法论局限性。
80道编程任务是一个有价值的基准,但它代表的是特定类型任务的安全性,不一定能映射到所有使用场景。一个在嵌入式系统编程任务上漏洞率高的模型,在Web前端开发任务上可能表现不同。这不是为52%辩护,而是说:类型化的安全基准需要和实际使用场景匹配,才能做出准确的风险评估。
困境三:即便是OpenAI的30%,也是一个高得令人担忧的数字。
当我们对比Claude(52%)和OpenAI(30%)时,很容易将OpenAI的表现解读为”安全”。但30%的漏洞率意味着每10次代码生成中,有3次会引入安全漏洞——这在任何严格的安全标准下,依然是不可接受的。这场争论的真正背景是:整个AI编程工具行业的代码安全性,都远低于成熟的安全工程实践要求。
这3个困境不能成为Anthropic不透明的理由,但它们是我们在要求解决方案时必须纳入考量的现实约束。
第三层洞察:AI编程工具正在遭遇”无回归测试时代”的系统性危机
表面上,这是Anthropic一家公司、一个决策的问题。但如果拉长视野,这个事件揭示的是整个AI编程工具行业正在面临的一个更深层、更系统性的挑战——而且这个挑战目前几乎没有人在认真解决。
传统软件的质量保障机制
传统软件行业经过数十年的演化,建立了一套成熟的质量保障机制,其中最核心的是回归测试:每次软件更新发布之前,必须运行完整的测试套件,验证新版本没有破坏原有的功能或引入新的缺陷。如果测试不通过,版本不发布,或者发布时会明确标注已知问题和影响范围。
许多企业级软件公司还提供了版本锁定机制:企业客户可以选择停留在某个经过测试、行为可预测的版本,而不是强制跟随每次更新。这对于关键业务系统尤其重要——他们宁愿错过新功能,也不愿意冒更新破坏现有流程的风险。
AI模型更新的”黑箱”特性
AI模型的版本更新遵循完全不同的逻辑,且对这套传统质量保障机制几乎完全免疫。
模型更新本质上是全局参数的变化,影响的不是某个具体功能,而是模型在所有场景下的行为。一个对数学推理有利的参数调整,可能无意中改变了代码安全性的表现。一个为了降低token消耗而调低thinking effort的决定,可能对90%的使用场景没有可感知的影响,但对安全关键的代码生成场景却是灾难性的。
更关键的是:目前没有任何主流AI代码工具供应商,要求自己在发布新模型版本之前通过”代码安全漏洞率”的回归测试,或者将此类测试结果公开发布供用户参考。
Veracode正在做的事情(80道任务、持续监测漏洞率)其实就是一个第三方回归测试框架。它揭示的结果令人不安:Claude Opus 4.7在这套框架下的漏洞率是52%——如果Anthropic自己在发布前做了同等严格的测试,这个数字应该是已知的,并且应该引发了内部讨论和决策。
但从Boris Cherny关于”调低thinking effort”的说法来看,这个决定似乎更多考虑了用户体验(减少token消耗)而非安全影响。这不是指责Anthropic的工程团队能力,而是在说:AI工具行业目前缺乏一套以代码安全性为核心指标的版本发布标准。
AI供应链安全的隐性威胁
把这个问题放在供应链安全的视角下,问题的严重性会更加清晰。
2026年,全球有数以百万计的开发者在日常工作中使用Claude Code、GitHub Copilot、Cursor等AI编程工具,其中包括金融系统、医疗系统、基础设施控制系统、和各种企业级应用的开发者。许多代码在经过简单的人工Review(或根本没有Review)之后,就直接进入了生产环境。
当Anthropic在没有任何通知的情况下降低thinking effort,导致代码漏洞率上升,这个影响不会停留在Claude的服务器里,它会通过成千上万的开发者,渗透到无数生产系统中——而这些系统的运营者,对此完全不知情。
这是2026年AI安全领域最不被正式讨论、却可能影响最广泛的风险类型之一:不是黑客用AI攻击你,而是你用AI构建的系统里,有AI替你埋下了黑客可以利用的后门。
谁应该承担责任?
当一个AI生成的代码漏洞被黑客利用,谁应该承担责任?
这是2026年还没有清晰法律框架的问题。目前的主流立场是:用户最终负责——Anthropic的建议”工程师应该始终检查漏洞”本质上就是在说:最终责任在用户,AI只是工具。
但这个立场在现实中越来越难以维持,原因有三:
第一,代码Review本身正在被AI接管。在”vibe coding”的工作模式下,开发者用AI生成代码,再用AI审查代码,整个链条里人的干预越来越少。当用于生成代码的AI和用于Review代码的AI使用的是同样的底层模型,模型的系统性安全盲点无法通过这种内部循环发现。
第二,质量退化是不透明的。如果Anthropic公开宣布”新版本代码安全漏洞率提升了X%”,开发者可以做出有知情的决策——是否继续使用、是否加强Review、是否切换工具。但在没有任何公告、没有任何版本变更说明的情况下,开发者甚至不知道他们需要额外警惕。
第三,用户已经建立了基于过去经验的信任。一个在Opus 4.6初始版本上测试了自己工作流程的开发者,建立了”这个工具在我的使用场景下是安全的”这样的判断。他没有理由知道5周后,这个工具已经变成了另一个版本,安全属性已经悄悄改变。
行业需要的不是承诺,而是可验证性
这场质量危机最终指向一个行业级别的结构性缺失:
AI编程工具的质量保障体系,还停留在云服务的”信任我们”阶段,而没有进化到企业软件的”验证,然后信任”阶段。
具体来说,最紧迫的是两个层面的改变:
第一,安全性回归基准的公开化。
Veracode已经证明这件事的可行性:一套标准化的80道任务,定期测量AI模型在代码漏洞引入率上的表现。这不是什么前沿技术,而是软件行业基本的质量可见性要求。
AI代码工具供应商应该在每次模型版本发布时,公开对应的安全性基准数据:这个版本在标准化测试集上的漏洞率是多少?与上一版本相比有什么变化?影响哪些编程语言和任务类型?
这不仅仅是透明度的问题,更是让市场发挥作用的前提条件。如果Anthropic公开Opus 4.7的漏洞率是52%,OpenAI模型的是30%,企业用户会做出有知情的决策。市场压力,会比监管要求更快地推动质量改善。
类比传统软件:许多企业在采购安全产品时,会要求供应商提供第三方渗透测试报告。AI编程工具也应该走到这一步——供应商提供,或至少允许第三方提供,代码安全质量的可验证证明。
有一个可以参考的先例:GitHub在2023年推出了GitHub Advanced Security服务,允许企业对代码库进行自动化安全扫描,并公开统计了”由AI Copilot辅助修复的安全漏洞数量”。虽然这是正向数据(展示修复),而非漏洞引入数据,但它建立了一个”AI工具与代码安全性可被量化关联”的先例。Anthropic完全可以基于类似框架,公开”Claude辅助生成的代码中,已知安全漏洞类型的检测率”作为透明度基准。
第二,模型行为变更的明确通知机制。
Boris Cherny”调低thinking effort”这件事,最大的问题不是决策本身(调低thinking effort或许在某些场景是合理的权衡),而是这个决策对用户完全不透明。
一个可行的最低标准是:任何影响模型核心行为参数的变更(包括thinking effort、安全过滤器设置、推理深度等),都应该以”模型行为更新日志”的形式公开,并在变更时向企业客户发送通知。这不要求技术细节全部公开(那涉及竞争敏感信息),但至少需要告知:”本次更新改变了模型在代码生成任务上的推理深度,可能影响代码复杂度较高任务的安全属性。建议在部署前重新评估代码审查流程。”
这个标准,目前没有任何主流AI代码工具供应商达到。
OpenAI、Microsoft Copilot、Google Gemini Code、Anthropic Claude——在这两个核心维度上,2026年4月,没有一家做得足够好。
结语:那个被调低的”thinking effort”
Boris Cherny那条关于”调低thinking effort”的推文,是整件事情最值得反复咀嚼的细节。
一个被调低的参数,在用户体验层面的体现是:token账单少了一点,响应速度快了一点。在代码安全层面的体现是:47.3%的质量下滑,52%的漏洞率,和一家NSA级别的安全公司决定停止使用这个工具。
这不是关于Anthropic善意与否的故事。这是关于AI工具商业化过程中,用户体验优化和安全保障之间的隐性冲突,正在如何在没有被意识到的情况下,悄悄做出错误的取舍的故事。
对企业和工程师的直接建议:
在整个行业建立起更完善的AI代码安全可验证标准之前,每个工程团队需要做的事情其实很简单,但必须制度化:
- 把”所有AI生成的代码都必须经过人工安全审查”写成不可妥协的工程铁律——不是因为工具不好,而是因为任何工具都有你不知道的质量波动。
- 在使用AI编程工具之前,用同等复杂度的任务做一次基准测试,建立自己的质量基准线;每隔一段时间重测,感知是否有退化。
- 对安全关键代码(身份验证、加密、输入校验、权限控制),永远不要依赖AI生成,人工编写和审查。
Dave Kennedy建自己的本地模型是他的方式。但并非所有团队都有这个资源。上述3点,任何规模的工程团队今天就可以执行。
对行业和供应商的更长期问题:
AI代码工具供应商也需要重新思考产品责任边界。当你向企业客户销售一个”提升工程师生产力10倍”的工具,并以此为卖点,将这些客户的代码生产流程重构在自己的API上,你是否也同时承担了对代码质量的部分责任?
这个问题在2026年的法律框架下还没有答案,但在越来越多的安全事故与AI生成代码建立因果关联之后,这个问题终究会得到一个不由供应商单独决定的回答。
因为从2026年4月22日的数据来看,你正在使用的AI编程工具,在超过一半的任务中,会为你的代码库里悄悄植入一个漏洞。
而你并不知道。
参考资料:
- Forbes, Thomas Brewster, “Anthropic’s Claude Is Pumping Out Vulnerable Code, Cyber Experts Warn”, 2026-04-22: https://www.forbes.com/sites/the-wiretap/2026/04/22/anthropics-claude-is-pumping-out-vulnerable-code-cyber-experts-warn/
- The Register, “AMD AI executive says Claude Code has become ‘unusably bad’ for complex engineering tasks”, 2026-04-06: https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/
- Simon Willison’s Weblog, “Is Claude Code going to cost $100/month?”, 2026-04-22: https://simonwillison.net/2026/Apr/22/claude-code-confusion/