菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > Claude性能下降实测:三大核心缺陷与优化方案全解析
技术资讯 三大核心缺陷与优化

Claude性能下降实测:三大核心缺陷与优化方案全解析

2026-05-14
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

就在GPT-5 5发布之际,Anthropic官方正式确认了Claude模型性能下降的问题,并宣布已重置所有

就在GPT-5.5发布之际,Anthropic官方正式确认了Claude模型性能下降的问题,并宣布已重置所有用户的使用额度。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

经过一个多月的用户反馈与内部排查,Anthropic最终承认了导致Claude体验下滑的技术故障。问题根源被锁定在三个独立的技术缺陷上:

  • 模型推理等级被从「高」静默下调至「中」
  • 缓存Bug导致每轮对话的思考记录被错误清空
  • 一条25词限制的系统提示词意外降低了输出质量

这三个Bug的叠加效应,严重影响了Claude的响应质量与连贯性。有行业观察者指出,竞争对手GPT-5.5的发布可能加速了问题的曝光与修复进程。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

尽管修复是积极的,但时间点的巧合引发了讨论。GPT-5.5的亮相是否迫使Anthropic加快了响应速度?甚至有人推测,这是否是一场有意的市场策略,旨在GPT-5.5发布期间制造话题?

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

Bug实锤了,一共三个

值得注意的是,这并非Claude首次遭遇性能争议。去年8月,Anthropic就曾发布过关于Opus 4.0/4.1模型质量下降的事后分析,当时同样坚称“无意降低模型质量”。

本次报告的标题“对近期三个问题的分析”中的“近期”一词颇具深意,它暗示问题已持续发酵,而非刚刚出现。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

社区对Claude“变笨”的抱怨早已存在。十多天前,AMD AI组高级总监Stella Laurenzo在GitHub发布了一份硬核审计报告,分析了超过6800份会话、近1.8万个思考块和23万次工具调用。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

报告显示,自2月起,模型的推理深度出现显著下滑。模型更频繁地陷入“推理循环”,并倾向于选择最简单而非最正确的解决方案。

同期,BridgeMind的BridgeBench测试也显示异常:Opus 4.6的准确率从83.3%跌至68.3%,排名从第2位滑落至第10位。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

尽管后续有研究者指出该测试的方法论存在不一致性,但“Claude性能缩水”的印象已深入人心。用户社区甚至创造了“AI缩水通胀”一词,形容支付相同费用却获得性能下降的服务体验。

此前,由于Claude在代码生成等领域的优势,许多用户选择忍受。直到GPT-5.5发布,Anthropic才在官方博客发布详细分析,将问题拆解为三点:

1. 推理等级被暗中调低
3月4日,Claude Code的默认推理等级从“高”被调整至“中”,理由是降低延迟。但用户界面仍显示为“高”,导致用户误用降级模型。该问题在一个多月后才被回滚。

2. 缓存Bug导致“越聊越傻”
3月26日上线的缓存优化本意是清理闲置超过一小时的思考记录。但代码缺陷导致每轮对话后都执行清除,使得模型丢失上下文,表现为健忘、重复及工具调用混乱。此Bug还导致Token消耗激增,历时15天才修复。

3. 一句提示词拖累输出质量
4月16日,新增的系统提示词限制“工具调用间文字不超过25词,最终回复不超过100词”,意外导致Opus 4.6/4.7模型性能下降约3%。该限制在四天后被取消。

这三个问题在不同时间影响不同用户群,其叠加效应导致Claude Code体验持续且不均衡地恶化,用户难以定位根源。

在官方推特上,ClaudeDevs账号总结了问题,联合创始人Boris Cherny也亲自回应,并预告正在修复Opus 4.7的相关问题。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

光有Bug不够解释一切

仅用技术故障来解释过去两个月的事件,似乎并不完整。回顾四月,Anthropic的一系列操作堪称“连环失误”。

4月4日,Anthropic封禁了OpenClaw等第三方工具通过Pro/Max订阅运行,要求用户转向按Token付费的API。

4月21日,官方定价页面悄然移除了Pro套餐中的Claude Code服务,文档也改为“仅限Max套餐”。在被用户质疑后,增长负责人解释这仅是针对2%新用户的A/B测试,但全站更新的做法与此说法矛盾。几小时后,该改动被回滚。

我们来计算一下成本变化:Pro用户年费240美元。若想继续使用Claude Code,需升级至Max 5x套餐(年费1200美元)或Max 20x套餐(年费2400美元),价格涨幅高达5到10倍,且无中间档位。

4月23日,即发布事故报告的当天,Anthropic宣布的补偿措施是“重置所有用户使用额度”。但有用户指出,上周发布Opus 4.7时已重置过一次,此次“补偿”可能仅是常规周期重置。

将这三件事串联起来,其背后可能反映了公司在成本控制与市场策略上的深层焦虑。

用户信任遭遇危机

面对这一系列事件,用户反应出现分化。

部分用户认为,复杂系统出现Bug难以避免,且Anthropic的事后报告相对透明,Boris在Hacker News上逐一回应用户质疑的态度也值得肯定。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

但更多用户则在计算另一笔账:在问题高发的两个月里,官方渠道基本保持沉默。仅有个别员工在社交媒体X上进行零星、非系统的回复,沟通效率低下。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

更深层的质疑指向了“缓存优化”的真实动机。清除思考记录的触发点与缓存过期时间重合,让人怀疑其初衷是节省成本而非提升性能。同期对部分Pro用户进行的隐秘A/B测试,进一步动摇了用户信任。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

正如一位用户的评论切中要害:不应将所有鸡蛋放在同一个模型公司的篮子里。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

市场格局正在重塑

Hacker News的评论区出现了有趣的“迁移”分享。有用户称自己在二月份就已转向Codex,现在回想,正是Claude体验下滑促使了这次切换。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

也有用户指出,GPT-5.4在部分任务上的表现已超越Opus 4.6。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

还有用户开始采用MiniMax等产品作为补充,以40美元的成本获得一个周期内4500条消息及完整的思考过程可见性。

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

半年前,“写代码就用Claude”还是开发者社区的共识。如今市场已然生变:Codex据称拥有400万活跃用户;新发布的GPT-5.5强化了编码与计算机操作能力,被OpenAI内部人员称为可担任“参谋长”;DeepSeek V4也已蓄势待发。

Claude面临的挑战,不仅是自身性能的波动,更是竞争对手的快速进步。在竞争最激烈、用户最挑剔的时刻,它在核心体验上出现了问题。

留给Anthropic修复Bug并重建信任的时间窗口正在收窄。GPT-5.5已经登场,DeepSeek V4准备就绪。现在,行业或许都在观望下一个问题:Gemini,你准备好了吗?

Claude终于认了!降智坐实,越聊越傻,3个bug全曝光

参考链接
[1]https://www.anthropic.com/engineering/april-23-postmortem
[2]https://news.ycombinator.com/item?id=47878905

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多