菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > Claude 4.8实测:优势不足全解析与对比推荐
热点资讯

Claude 4.8实测:优势不足全解析与对比推荐

2026-05-30
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

今天凌晨,Anthropic 低调上线了最新的 Claude Opus 4 8。距离 Opus 4 7 发布仅一个多月,Claude 的

今天凌晨,Anthropic 低调上线了最新的 Claude Opus 4.8。距离 Opus 4.7 发布仅一个多月,Claude 的迭代频率明显加快。

通常来说,4.8 这样的小版本更新不会引起太大关注。但这次情况不同——不少人怀疑 Opus 4.8 可能“蒸馏”了,而且蒸馏的对象是 DeepSeek 和千问。通过 API 询问“你是什么模型”“你背后是哪家公司”,得到的回复时而是“通义千问”,时而是“深度求索”。此前无端指责中国模型蒸馏 Claude,如今自己却被抓到把柄,Anthropic 的处境相当尴尬。

当然,蒸馏与否是一回事,实际表现是另一回事。只不过在正式使用前,Opus 4.8 已经蒙上了一层信任阴影。

根据官方博客,这次 Opus 4.8 的改动幅度不大。最显著的改进之一就是“诚实度”提升。换句话说,那种过度自信、嘴硬后又补一句“对不起,之前说错了”的情况,发生概率大幅降低。

说实话,我觉得Claude 4.8有点拉

此外,执行 Agent 任务时据说更可靠,判断力更强,能自主发现问题、提出质疑,并用最终最优答案稳妥收尾。从性能指标看,Opus 4.8 各项仅小幅提升,并无亮眼突破——其中一项 coding 指标甚至不如两个月前的 GPT-5.5。

说实话,我觉得Claude 4.8有点拉

真实用户反馈褒贬不一。有人表示它确实更诚实了,不再轻易不查资料就信口开河,经常自我反思,干活主动且稳定,安全性也有明显提升。但也有人说它依然不如白月光 Opus 4.6,语言表达的人味儿尚未回归,token 消耗却飞快,甚至不少人在 coding 时发现它依然会胡说八道,与 Opus 4.7 毫无二致。

说实话,我觉得Claude 4.8有点拉

亲自上手实测后,倒不是觉得 Opus 4.8 不好,而是得问一句:代价是什么?就拿“诚实”特性来说,面对一些危险问题,它确实考虑周全不乱说,但也变得极其保守。比如拿一张毒蘑菇照片问能否食用,它的思考过程相当客观冷静。

说实话,我觉得Claude 4.8有点拉

但在某些安全场景中,它表现得过度谨慎。即使推测大概率没问题,也只会说“我的顾虑小了很多,但也可能是剧毒菌撞脸”。这当然是负责任的——真有人照着 AI 的话去采蘑菇,后果不堪设想。但从用户体验看,许多问题得不到确定答复,句句都是 AI 给自己叠甲,相当难受。

说实话,我觉得Claude 4.8有点拉

另外,想要 Opus 4.8 保持水准,最好不要尝试 High 以下的性能(effort)。高消耗才有好表现。比如新闻总结这种基础任务,Opus 4.8 在 Low 模式下给出的第一条新闻就是错的:Sholto Douglas 发布那条动态已经是三天前的事,连自家新闻都搞错。想让它做事实核查,还得再追问一遍——说好的主动检查、用最准确的答案稳稳接住呢?

说实话,我觉得Claude 4.8有点拉

说实话,我觉得Claude 4.8有点拉

接着测试代码能力。常规 leetcode 困难算法题对 Opus 4.8 已不成问题。但丢给它一道超难题 LCP 82,即使开启 Extra 模式,123 行代码也足足思考了二十多分钟。结果确实不错,一遍过,思考出第一版代码后还复查优化了一遍,目前能做到这一程度的模型并不多。

说实话,我觉得Claude 4.8有点拉

作为对比,GPT-5.5 思考了两分钟,便给出一个测试案例通过 99% 的答案,唯一失败的原因是时间超限,其实不算答错。这明显比 Opus 4.8 省时省力。

说实话,我觉得Claude 4.8有点拉

又尝试让 Opus 4.8 独立制作一个日式校园 galgame。不得不说,现在 AI 写的项目代码层次分明、框架清晰,在此基础上改立绘、加剧情、把游戏做大做强都很容易。浅玩了一下,所有功能包括存档、自动播放、CG 画廊等,没有任何 bug。

说实话,我觉得Claude 4.8有点拉

但是 Claude 断断续续做了足足一个多小时。而 GPT-5.5 虽然简陋很多,该有的功能一样不差,只用了五分钟。花更多钱和时间换来的答案值不值得?恐怕只有每个人自己心里清楚。

总的来说,Opus 4.8 继承了 Claude 过往的强项,没有特别出彩的表现,平平常常普普通通。而测试之后,最想说的反而不是模型本身怎么样,而是现在用个 Claude,也太小心翼翼了。作为业界价格巅峰,用 Claude 最好的模型不舍得开最好的性能;开最高性能又不舍得用最好的模型。处处是陷阱,在你没注意的时候,无关紧要的小问题已经把 token 烧光了。而且让用户自己选性能,Low 和 High 也就算了,这次 Opus 4.8 一口气推出了 5 种档位——Low、Medium、High、Extra、Max,普通人真搞不明白什么时候用哪个,很容易造成浪费。

说实话,我觉得Claude 4.8有点拉

现在 Opus 4.8 相关的评论区里,不少人陷入了 Opus 4.6 下架的恐慌。别担心,在更多模型里,老模型还在,想用还能用到。但坦白讲,这种“负优化”不仅仅是 Anthropic 一家的困境,不少厂商都透着一股新不如旧的无奈。虽然交出的参数答卷越来越漂亮,可那些曾经让用户感到惊艳的极致体验,又什么时候才能回来呢?

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多