Claude百万token上下文实测:窗口增大未必效果更好
摘要
Claude上下文窗口扩展至百万token,但长文本导致“上下文腐烂”,注意力稀释,自动压缩可
在实际评估多个AI模型的长文档处理能力时,借助leadhi.cn这类聚合平台切换模型跑测试,效率提升明显——一个界面就能搞定,无需反复切换窗口。Anthropic将Claude的上下文窗口从100K一路扩展至200K、再到100万token,2025年4月发布的Claude 4.7更达到150万token。数字越来越亮眼,但经过一个多月的密集使用,真实感受是:窗口大了,模型的推理能力未必同步跟上。

100万token这个数字该怎么看
100万token大约对应750万个英文单词。放到实际工作场景中,意味着你可以把整个代码仓库、数百页合同、数千篇论文一次性塞进去,不需要分块或提前摘要。
定价方面,Opus 4.6每百万token输入5美元、输出25美元。之前超过20万token的请求输入价格翻倍,现在200K以内统一定价。对比一下,GPT-5.5的上下文窗口上限是100万token,而Claude 4.7已经达到150万。
但要注意一个前提——Anthropic在官方公告中明确标注了“测试版百万token上下文窗口”。测试版这三个字很关键,说明他们自己也清楚尚未完全解决相关难题。
检索能力确实有肉眼可见的提升
在专门考验超长文本检索能力的MRCR v2测试中,Opus 4.6拿到76%,上一代Sonnet 4.5只有18.5%。这个跨越是实打实的。
放到“大海捞针”测试里更直观:Claude 4.7在100万token处的召回准确率是99.4%,GPT-5.5是97.2%。长文本摘要的幻觉率Claude只有1.8%,GPT-5.5是3.5%。
Opus 4.6在长文本连贯性测试Vending-Bench 2中也大幅领先,在计算生物学测试中同样排名第一。单次请求最多支持600张图片或600页PDF,相比之前的100个媒体文件翻了6倍。
但“上下文腐烂”是个真实存在的隐患
这一点大多数人不了解。Anthropic在官方博客中明确提出了“上下文腐烂”这个概念——上下文越长,模型越容易变“笨”。
机制并不复杂。模型的注意力是有限资源。你两小时前读的那个配置文件、一小时前调试失败的日志、半小时前试过的死胡同,全部留在窗口里,全都在抢注意力。信息过载导致注意力稀释,这与能力无关,是带宽瓶颈。
更麻烦的是自动压缩的翻车时刻。当上下文快撑到上限时,系统会自动触发压缩——而这恰恰是上下文最长、模型表现最差的时候。你让一个已经“走神”的模型来决定什么信息重要、什么可以丢掉。博客里举了个例子:一个很长的调试会话触发了自动压缩,然后你突然说“修一下那个warning”,但那个warning只是中途顺带扫到的一眼,压缩时已经被丢弃了。
从成本角度看更触目惊心:有分析发现超过80%的成本可能被浪费在完全无关的臃肿上下文上。一次40000个输入token的请求,最终只为了生成30个token的有效输出。系统提示本身就可能高达2万到3万token,这是每次请求的固定“起步价”。
Anthropic官方给出的五条挽救路径
Anthropic自己也意识到这个问题,给出了完整的会话管理方案。
继续对话:上下文还相关时直接聊,大多数场景够用。
回退:连按两下Esc跳回之前的某条消息,从那个节点重新开始。官方博客有个精准判断——与其纠正不如回退。失败尝试的全部中间过程留在上下文里,会持续污染后续判断。
清除:开启全新会话,附带简要说明。好处是零腐烂,坏处是费事。
压缩:让模型总结当前对话,用摘要替换历史。省事但有损。可以附上引导指令告诉它什么该留、什么该扔。注意清除和压缩截然不同——压缩由模型决定重要内容,清除由你自己写出关键信息。
子智能体:把工作交给拥有独立上下文的子智能体,干完活只把结论带回来。Anthropic内部的判断标准就一条——我之后还需要这些工具的输出本身,还是只需要最终结论?它更像你的“一次性调查员”,工作簿扔掉就行,你只需要拿走最后那页报告。
实际使用中的省钱要点
除了上下文管理,token消耗也是必须算的账。日常开发坚决用Sonnet,只有啃硬骨头时才请Opus。Opus的token价格是Sonnet的数倍。
几个实操建议:为每个独立任务多开终端窗口,任务完成立刻关闭;善用.gitignore划定禁区,阻止模型扫描node_modules等无关文件;只给模型预期会更改的代码加周边20-40行上下文,而不是整个文件。
用最清醒的时候做压缩,而不是等到最糊涂的时候被动挨打。提前手动执行压缩并附上说明,比等自动触发靠谱得多。
趋势判断
Anthropic把百万上下文从实验功能变成默认能力,信号很明确:长上下文不再是奢侈品,而是标配。但窗口大小的军备竞赛已经接近尾声。
真正的问题不再是你一次能喂给AI多少东西,而是你懂不懂管理它那块昂贵、健忘又极不稳定的“工作内存”。GPT-5.5在上下文预热速度上快了约33%,Claude在召回准确率上更稳。选谁取决于你的场景——追求极致准确率选Claude,追求响应速度选GPT。
100万token是安全气囊,不是日常主干道。核心推理控制在30万token以内,该开新会话就开新会话——这才是真正高效利用长上下文窗口的方式。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。