其他资讯

Claude Opus 4.8评测：代码与科学推理全球第一

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年5月28日，Anthropic低调发布Claude Opus 4 8。命名出乎意料——按过往惯例，外界普遍预期

2026年5月28日，Anthropic低调发布Claude Opus 4.8。命名出乎意料——按过往惯例，外界普遍预期会是5.0版本。但Anthropic选择在4.7基础上深度迭代，而非急于跨版本。如果说4.7是试水，那么4.8则是一次货真价实的性能跃升。

直接看硬指标。据SuperCLUE最新中文综合评测，Opus 4.8在代码生成、幻觉控制、科学推理三个核心维度均位居全球榜首。这三项能力分别对应“高效编码”、“可信输出”和“深度推理”，恰好直击当前大模型用户普遍反馈的三大痛点。

代码生成得分83.58，领先第二名超过2分，较前代4.7提升逾4.5分。更关键的是，在软件工程细分任务中，Opus 4.8独立完成编程及网页开发任务的稳定性显著提升。对于频繁使用GitHub和IDE的开发者，这意味着大幅减少了“半成品代码仍需手动修正”的低效场景。

幻觉控制得分87.48，同样全球第一，较4.7版本提升超6分。直观感受是模型“虚构”现象显著减少。在专业应用场景中，输出更严谨可靠，直接决定用户是否敢于将其答案作为决策参考。大模型幻觉长期困扰行业，Opus 4.8在这一步切实落地。

科学推理得分77.19，稳居首位，较前代提升近9分。理科计算与复杂逻辑推导表现更加扎实——这并非记忆性作答，而是模型对因果关系的理解深度确实增强。

综合智能指数73.93分，与GPT-5.5、Gemini 3.1 Pro Preview并列第一梯队。更重要的是，API调用价格未做调整，推理响应速度基本保持稳定。性能提升而成本不变，体现了务实态度。

任何评测都难免存在短板。Opus 4.8在智能体任务规划、数学推理和指令遵循三项指标上略有下滑，其中指令遵循能力下降较为显著。对日常对话影响有限，但若使用场景涉及复杂多步指令编排，建议额外验证。这或许是迭代中的权衡——在强化代码与幻觉控制的同时，轻微牺牲了指令跟随的灵活度。

总体而言，Opus 4.8定位明确：并非追求全面均衡的面子工程，而是面向技术密集型用户的专业型性能引擎。开发者和科研人员将成为核心受益群体。它或许不是最擅长闲聊的模型，但在代码编写、公式推导和幻觉控制方面，是当前阶段最可靠的选择之一。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。