Claude Opus 4.8评测:代码与科学推理全球第一
摘要
2026年5月28日,Anthropic低调发布Claude Opus 4 8。命名出乎意料——按过往惯例,外界普遍预期

2026年5月28日,Anthropic低调发布Claude Opus 4.8。命名出乎意料——按过往惯例,外界普遍预期会是5.0版本。但Anthropic选择在4.7基础上深度迭代,而非急于跨版本。如果说4.7是试水,那么4.8则是一次货真价实的性能跃升。
直接看硬指标。据SuperCLUE最新中文综合评测,Opus 4.8在代码生成、幻觉控制、科学推理三个核心维度均位居全球榜首。这三项能力分别对应“高效编码”、“可信输出”和“深度推理”,恰好直击当前大模型用户普遍反馈的三大痛点。
代码生成得分83.58,领先第二名超过2分,较前代4.7提升逾4.5分。更关键的是,在软件工程细分任务中,Opus 4.8独立完成编程及网页开发任务的稳定性显著提升。对于频繁使用GitHub和IDE的开发者,这意味着大幅减少了“半成品代码仍需手动修正”的低效场景。
幻觉控制得分87.48,同样全球第一,较4.7版本提升超6分。直观感受是模型“虚构”现象显著减少。在专业应用场景中,输出更严谨可靠,直接决定用户是否敢于将其答案作为决策参考。大模型幻觉长期困扰行业,Opus 4.8在这一步切实落地。
科学推理得分77.19,稳居首位,较前代提升近9分。理科计算与复杂逻辑推导表现更加扎实——这并非记忆性作答,而是模型对因果关系的理解深度确实增强。
综合智能指数73.93分,与GPT-5.5、Gemini 3.1 Pro Preview并列第一梯队。更重要的是,API调用价格未做调整,推理响应速度基本保持稳定。性能提升而成本不变,体现了务实态度。
任何评测都难免存在短板。Opus 4.8在智能体任务规划、数学推理和指令遵循三项指标上略有下滑,其中指令遵循能力下降较为显著。对日常对话影响有限,但若使用场景涉及复杂多步指令编排,建议额外验证。这或许是迭代中的权衡——在强化代码与幻觉控制的同时,轻微牺牲了指令跟随的灵活度。
总体而言,Opus 4.8定位明确:并非追求全面均衡的面子工程,而是面向技术密集型用户的专业型性能引擎。开发者和科研人员将成为核心受益群体。它或许不是最擅长闲聊的模型,但在代码编写、公式推导和幻觉控制方面,是当前阶段最可靠的选择之一。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。