其他资讯

Claude Opus 4.8权威评测：代码、幻觉与推理全球领先

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年5月28日，Anthropic发布ClaudeOpus4 8，在中文评估中代码、幻觉控制与科学推理三项全球第

Anthropic发布Claude Opus 4.8：代码、幻觉控制与科学推理全球第一

记录一点实测体感——2026年5月30日，Anthropic于5月28日正式释放了最新旗舰模型Claude Opus 4.8。该模型在中文综合评测中表现格外突出，尤其在代码生成、幻觉抑制与科学推理三个维度上，直接问鼎全球榜首。

拆开数据看。代码生成维度，Opus 4.8拿下83.58分，拉开第二名2分以上，对比上一代4.7版本提升超过4.5分。在软件工程细化任务中，独立完成编程和网页开发时的稳定性显著增强，输出质量肉眼可见地攀升。

幻觉控制是另一大亮点。87.48分的成绩位列全球第一，相较前代跃升超6分。模型编造事实的频次大幅降低，输出内容更加严谨、可信。对专业级应用场景而言，这种事实准确性的提升极为关键。

科学推理得分77.19分，稳居全球首位。对比上一代接近9分的涨幅，说明它在理科计算、复杂逻辑推导等任务上底子更厚，推理链条更可靠。

综合智能指数73.93分，与GPT-5.5、Gemini 3.1 Pro Preview同处第一梯队。响应速度基本持平，API调用价格也未调整——整体定位仍然是高性能但单位算力成本偏高的旗舰级产品。

当然，客观来看也需要指出：这一版在智能体任务规划、数学推理和指令遵循三个指标上出现回落。指令遵循能力下降幅度较大，但对日常交互使用的影响实际有限。

总的来看，Opus 4.8将火力集中在了代码能力、事实准确性和科学推理上，对技术密集型用户而言是实打实的升级。特别是开发者与科研工作者，应该能明显感受到这种“定向优化”带来的提升。现阶段，它算是综合能力最均衡的旗舰级大模型之一。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。