技术资讯三大核心缺陷与优化

Claude性能下降实测：三大核心缺陷与优化方案全解析

2026-05-14

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

就在GPT-5 5发布之际，Anthropic官方正式确认了Claude模型性能下降的问题，并宣布已重置所有

就在GPT-5.5发布之际，Anthropic官方正式确认了Claude模型性能下降的问题，并宣布已重置所有用户的使用额度。

经过一个多月的用户反馈与内部排查，Anthropic最终承认了导致Claude体验下滑的技术故障。问题根源被锁定在三个独立的技术缺陷上：

模型推理等级被从「高」静默下调至「中」
缓存Bug导致每轮对话的思考记录被错误清空
一条25词限制的系统提示词意外降低了输出质量

这三个Bug的叠加效应，严重影响了Claude的响应质量与连贯性。有行业观察者指出，竞争对手GPT-5.5的发布可能加速了问题的曝光与修复进程。

尽管修复是积极的，但时间点的巧合引发了讨论。GPT-5.5的亮相是否迫使Anthropic加快了响应速度？甚至有人推测，这是否是一场有意的市场策略，旨在GPT-5.5发布期间制造话题？

Bug实锤了，一共三个

值得注意的是，这并非Claude首次遭遇性能争议。去年8月，Anthropic就曾发布过关于Opus 4.0/4.1模型质量下降的事后分析，当时同样坚称“无意降低模型质量”。

本次报告的标题“对近期三个问题的分析”中的“近期”一词颇具深意，它暗示问题已持续发酵，而非刚刚出现。

社区对Claude“变笨”的抱怨早已存在。十多天前，AMD AI组高级总监Stella Laurenzo在GitHub发布了一份硬核审计报告，分析了超过6800份会话、近1.8万个思考块和23万次工具调用。

报告显示，自2月起，模型的推理深度出现显著下滑。模型更频繁地陷入“推理循环”，并倾向于选择最简单而非最正确的解决方案。

同期，BridgeMind的BridgeBench测试也显示异常：Opus 4.6的准确率从83.3%跌至68.3%，排名从第2位滑落至第10位。

尽管后续有研究者指出该测试的方法论存在不一致性，但“Claude性能缩水”的印象已深入人心。用户社区甚至创造了“AI缩水通胀”一词，形容支付相同费用却获得性能下降的服务体验。

此前，由于Claude在代码生成等领域的优势，许多用户选择忍受。直到GPT-5.5发布，Anthropic才在官方博客发布详细分析，将问题拆解为三点：

1. 推理等级被暗中调低
3月4日，Claude Code的默认推理等级从“高”被调整至“中”，理由是降低延迟。但用户界面仍显示为“高”，导致用户误用降级模型。该问题在一个多月后才被回滚。

2. 缓存Bug导致“越聊越傻”
3月26日上线的缓存优化本意是清理闲置超过一小时的思考记录。但代码缺陷导致每轮对话后都执行清除，使得模型丢失上下文，表现为健忘、重复及工具调用混乱。此Bug还导致Token消耗激增，历时15天才修复。

3. 一句提示词拖累输出质量
4月16日，新增的系统提示词限制“工具调用间文字不超过25词，最终回复不超过100词”，意外导致Opus 4.6/4.7模型性能下降约3%。该限制在四天后被取消。

这三个问题在不同时间影响不同用户群，其叠加效应导致Claude Code体验持续且不均衡地恶化，用户难以定位根源。

在官方推特上，ClaudeDevs账号总结了问题，联合创始人Boris Cherny也亲自回应，并预告正在修复Opus 4.7的相关问题。

光有Bug不够解释一切

仅用技术故障来解释过去两个月的事件，似乎并不完整。回顾四月，Anthropic的一系列操作堪称“连环失误”。

4月4日，Anthropic封禁了OpenClaw等第三方工具通过Pro/Max订阅运行，要求用户转向按Token付费的API。

4月21日，官方定价页面悄然移除了Pro套餐中的Claude Code服务，文档也改为“仅限Max套餐”。在被用户质疑后，增长负责人解释这仅是针对2%新用户的A/B测试，但全站更新的做法与此说法矛盾。几小时后，该改动被回滚。

我们来计算一下成本变化：Pro用户年费240美元。若想继续使用Claude Code，需升级至Max 5x套餐（年费1200美元）或Max 20x套餐（年费2400美元），价格涨幅高达5到10倍，且无中间档位。

4月23日，即发布事故报告的当天，Anthropic宣布的补偿措施是“重置所有用户使用额度”。但有用户指出，上周发布Opus 4.7时已重置过一次，此次“补偿”可能仅是常规周期重置。

将这三件事串联起来，其背后可能反映了公司在成本控制与市场策略上的深层焦虑。

用户信任遭遇危机

面对这一系列事件，用户反应出现分化。

部分用户认为，复杂系统出现Bug难以避免，且Anthropic的事后报告相对透明，Boris在Hacker News上逐一回应用户质疑的态度也值得肯定。

但更多用户则在计算另一笔账：在问题高发的两个月里，官方渠道基本保持沉默。仅有个别员工在社交媒体X上进行零星、非系统的回复，沟通效率低下。

更深层的质疑指向了“缓存优化”的真实动机。清除思考记录的触发点与缓存过期时间重合，让人怀疑其初衷是节省成本而非提升性能。同期对部分Pro用户进行的隐秘A/B测试，进一步动摇了用户信任。

正如一位用户的评论切中要害：不应将所有鸡蛋放在同一个模型公司的篮子里。

市场格局正在重塑

Hacker News的评论区出现了有趣的“迁移”分享。有用户称自己在二月份就已转向Codex，现在回想，正是Claude体验下滑促使了这次切换。

也有用户指出，GPT-5.4在部分任务上的表现已超越Opus 4.6。

还有用户开始采用MiniMax等产品作为补充，以40美元的成本获得一个周期内4500条消息及完整的思考过程可见性。

半年前，“写代码就用Claude”还是开发者社区的共识。如今市场已然生变：Codex据称拥有400万活跃用户；新发布的GPT-5.5强化了编码与计算机操作能力，被OpenAI内部人员称为可担任“参谋长”；DeepSeek V4也已蓄势待发。

Claude面临的挑战，不仅是自身性能的波动，更是竞争对手的快速进步。在竞争最激烈、用户最挑剔的时刻，它在核心体验上出现了问题。

留给Anthropic修复Bug并重建信任的时间窗口正在收窄。GPT-5.5已经登场，DeepSeek V4准备就绪。现在，行业或许都在观望下一个问题：Gemini，你准备好了吗？

参考链接
[1]https://www.anthropic.com/engineering/april-23-postmortem
[2]https://news.ycombinator.com/item?id=47878905

来源：互联网

上一篇 TACO CLI Agent优化指南：自主迭代中精简上下文提升效率 下一篇 医疗视频理解大模型开源：6K测试集与英雄榜发布，开发者实战指南

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Claude性能下降实测：三大核心缺陷与优化方案全解析

摘要

Bug实锤了，一共三个

光有Bug不够解释一切

用户信任遭遇危机

市场格局正在重塑

相关文章推荐