热点资讯

Claude 4.8实测：优势不足全解析与对比推荐

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

今天凌晨，Anthropic 低调上线了最新的 Claude Opus 4 8。距离 Opus 4 7 发布仅一个多月，Claude 的

今天凌晨，Anthropic 低调上线了最新的 Claude Opus 4.8。距离 Opus 4.7 发布仅一个多月，Claude 的迭代频率明显加快。

通常来说，4.8 这样的小版本更新不会引起太大关注。但这次情况不同——不少人怀疑 Opus 4.8 可能“蒸馏”了，而且蒸馏的对象是 DeepSeek 和千问。通过 API 询问“你是什么模型”“你背后是哪家公司”，得到的回复时而是“通义千问”，时而是“深度求索”。此前无端指责中国模型蒸馏 Claude，如今自己却被抓到把柄，Anthropic 的处境相当尴尬。

当然，蒸馏与否是一回事，实际表现是另一回事。只不过在正式使用前，Opus 4.8 已经蒙上了一层信任阴影。

根据官方博客，这次 Opus 4.8 的改动幅度不大。最显著的改进之一就是“诚实度”提升。换句话说，那种过度自信、嘴硬后又补一句“对不起，之前说错了”的情况，发生概率大幅降低。

说实话，我觉得Claude 4.8有点拉

此外，执行 Agent 任务时据说更可靠，判断力更强，能自主发现问题、提出质疑，并用最终最优答案稳妥收尾。从性能指标看，Opus 4.8 各项仅小幅提升，并无亮眼突破——其中一项 coding 指标甚至不如两个月前的 GPT-5.5。

说实话，我觉得Claude 4.8有点拉

真实用户反馈褒贬不一。有人表示它确实更诚实了，不再轻易不查资料就信口开河，经常自我反思，干活主动且稳定，安全性也有明显提升。但也有人说它依然不如白月光 Opus 4.6，语言表达的人味儿尚未回归，token 消耗却飞快，甚至不少人在 coding 时发现它依然会胡说八道，与 Opus 4.7 毫无二致。

说实话，我觉得Claude 4.8有点拉

亲自上手实测后，倒不是觉得 Opus 4.8 不好，而是得问一句：代价是什么？就拿“诚实”特性来说，面对一些危险问题，它确实考虑周全不乱说，但也变得极其保守。比如拿一张毒蘑菇照片问能否食用，它的思考过程相当客观冷静。

说实话，我觉得Claude 4.8有点拉

但在某些安全场景中，它表现得过度谨慎。即使推测大概率没问题，也只会说“我的顾虑小了很多，但也可能是剧毒菌撞脸”。这当然是负责任的——真有人照着 AI 的话去采蘑菇，后果不堪设想。但从用户体验看，许多问题得不到确定答复，句句都是 AI 给自己叠甲，相当难受。

说实话，我觉得Claude 4.8有点拉

另外，想要 Opus 4.8 保持水准，最好不要尝试 High 以下的性能（effort）。高消耗才有好表现。比如新闻总结这种基础任务，Opus 4.8 在 Low 模式下给出的第一条新闻就是错的：Sholto Douglas 发布那条动态已经是三天前的事，连自家新闻都搞错。想让它做事实核查，还得再追问一遍——说好的主动检查、用最准确的答案稳稳接住呢？

说实话，我觉得Claude 4.8有点拉

接着测试代码能力。常规 leetcode 困难算法题对 Opus 4.8 已不成问题。但丢给它一道超难题 LCP 82，即使开启 Extra 模式，123 行代码也足足思考了二十多分钟。结果确实不错，一遍过，思考出第一版代码后还复查优化了一遍，目前能做到这一程度的模型并不多。

说实话，我觉得Claude 4.8有点拉

作为对比，GPT-5.5 思考了两分钟，便给出一个测试案例通过 99% 的答案，唯一失败的原因是时间超限，其实不算答错。这明显比 Opus 4.8 省时省力。

说实话，我觉得Claude 4.8有点拉

又尝试让 Opus 4.8 独立制作一个日式校园 galgame。不得不说，现在 AI 写的项目代码层次分明、框架清晰，在此基础上改立绘、加剧情、把游戏做大做强都很容易。浅玩了一下，所有功能包括存档、自动播放、CG 画廊等，没有任何 bug。

说实话，我觉得Claude 4.8有点拉

但是 Claude 断断续续做了足足一个多小时。而 GPT-5.5 虽然简陋很多，该有的功能一样不差，只用了五分钟。花更多钱和时间换来的答案值不值得？恐怕只有每个人自己心里清楚。

总的来说，Opus 4.8 继承了 Claude 过往的强项，没有特别出彩的表现，平平常常普普通通。而测试之后，最想说的反而不是模型本身怎么样，而是现在用个 Claude，也太小心翼翼了。作为业界价格巅峰，用 Claude 最好的模型不舍得开最好的性能；开最高性能又不舍得用最好的模型。处处是陷阱，在你没注意的时候，无关紧要的小问题已经把 token 烧光了。而且让用户自己选性能，Low 和 High 也就算了，这次 Opus 4.8 一口气推出了 5 种档位——Low、Medium、High、Extra、Max，普通人真搞不明白什么时候用哪个，很容易造成浪费。

说实话，我觉得Claude 4.8有点拉

现在 Opus 4.8 相关的评论区里，不少人陷入了 Opus 4.6 下架的恐慌。别担心，在更多模型里，老模型还在，想用还能用到。但坦白讲，这种“负优化”不仅仅是 Anthropic 一家的困境，不少厂商都透着一股新不如旧的无奈。虽然交出的参数答卷越来越漂亮，可那些曾经让用户感到惊艳的极致体验，又什么时候才能回来呢？

来源：互联网

上一篇 Monica AI朋友圈长文提示词可复用模板编写指南 下一篇 2024国产开源模型信息图生成实测排行榜

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Claude 4.8实测：优势不足全解析与对比推荐

摘要

相关文章推荐