菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > Claude Mythos实测3小时6分,超越专家预期榜单
产业资讯 超越专家预期榜单

Claude Mythos实测3小时6分,超越专家预期榜单

2026-06-05
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

Anthropic的ClaudeMythos模型以80%成功率完成3小时6分钟自主任务,提前达到专家对2026年底的预测

刷新自主任务时长纪录!

Anthropic推出的Claude Mythos模型,以80%的完成率,将最长持续自主作业的纪录锁定在3小时6分钟。这一成绩恰好与超级预测者群体此前对2026年底的中位数预估——3到4小时——完全吻合。换言之,AI在长周期任务上的进化速度,已经压过了多数人的心理预期。

按Opus 4到Opus 4.5在ARC-AGI-2分数上的提升幅度推算,每次性能倍增所需的时间跨度和下一轮倍增的难度系数分别约为4个月和0.82倍。如果这条增长曲线成立,AI 2027报告中关于AGI/ASI的时间表,恐怕还要再往前压缩一段。

硅基觉醒,人类线性进化论崩塌

人类文明史上,我们曾无数次用工具延伸自身:杠杆延长了手臂,车轮放大了脚步,电力扩张了感官。但昨天,Anthropic实验室里那个名为Claude Mythos的数字体,触碰到了人类从未让渡的领地:意志的持续性

当METR基准测试结果出炉,Claude Mythos以80%的成功率独立完成长达186分钟的复杂任务时,时间轴确实出现了裂缝。

这不止是一个技术指标。它更像一个关于「时间坍缩」的历史隐喻。

人类认知习惯里,惯于用「未来」对冲当下的焦虑。专家与超级预测者之间曾有一份默契:他们把「3至4小时自主长时程任务」这个里程碑,放在了2026年底。

这个预测本质上是人类为自己设置的心理缓冲——指望用30个月的窗口期去修法律护城河、改造教育体系、安抚职场恐慌。然而Mythos的出现,直接推倒了这堵墙。

当2026年的预言在2024年被提前兑现,AI的增长曲线不再是摩尔定律式的线性累加,而是一种「自催化」式的加速。人们原以为自己在攀登一座高山,却发现脚下的岩石正化作流沙,直接将人卷向终点。

这种「时间压缩」在历史上并非没有先例,但从未如此猛烈。工业革命用了百年才重塑全球权力格局,而AI仅用三个小时的「专注力」,就宣告了人类「适应期」的仁慈假象彻底终结。

AI加速,再加速!

这不只是Claude Mythos单个模型的胜利。它折射出整个AI能力曲线的跳跃式攀升。

回顾时间线:2020年GPT-2时代,模型只能完成几秒级的任务;到2026年5月,已经有人把80%成功率的任务时长干到了3小时以上。中间不过六年。更夸张的是,预测机构在2026年4月还给出了1.5小时的基线,结果两个月后就被现实打脸。

这说明,我们对AI进化速度的估算依然偏保守。

长时程自主任务的突破,直接效应就是将「AI Agent」从概念验证阶段,推入可规模化部署的实战阶段。

企业可以开始认真评估:那些需要人类工程师连续工作半天到一天的重复性、结构化任务,是否可以直接交给AI执行?个人开发者也可以想象,自己的「数字分身」能持续处理数小时的复杂需求,而自己只需要在关键节点把关。

但与此同时,安全、对齐、控制的问题也被同步推到了最前沿。一个能连续自主工作3小时的Agent,如果目标设定出错、如果被注入恶意指令、如果出现不可预见的涌现行为,后果会比现在严重一个数量级。我们正在把越来越多真实世界任务,交给仍在快速进化的系统。这既是机会,也是一场正在逼近的压力测试。

人类历史上很少有哪个技术能如此高频地将「预测」变为「现实」。从AlphaGo到GPT-4,从o1到现在的Mythos,每一次我们都觉得还要等几年的事,都来得比预期更早。

3小时6分钟不是终点。它只是新纪元的起点。专家判断,到2030年,AI将以80%的成功率完成八小时任务。

认知裂谷:乐观者的杠杆,多数人的荒漠

未来已来,但分布不均。

近70%的超级预测者对AI极度乐观,而公众的乐观比例仅为42%。

这个数据差足以令人警觉。这种鸿沟并非源于知识储备,而是源于对「权力杠杆」敏感度的差异。对顶尖专家而言,Mythos是「解决问题的终极工具」——它能将一个人的意志放大万倍。但在普通大众眼中,这种「长时程自主能力」带来的不是自由,而是「无用感」的制度化。

更为深刻的共识在于:专家与公众一致认为AI会削弱人际关系。这揭示了一个残酷事实:我们正在制造「冷酷的上帝」。当把解决问题的重任交给Mythos,人类之间的协作、磨合,乃至基于共同克服困难而产生的情感,都将被标记为「低效」。我们或许会迎来物质极度丰盛、难题悉数解决的时代,但那也将是一个「社交荒漠」的时代。当AI独立处理了那186分钟的复杂任务,它也顺便偷走了人类在共同劳作中产生的意义感。

结语:在历史的褶皱中,寻找「人」的剩余价值

当2026年的墙壁提前倒塌,我们该如何定义自己?

186分钟的纪录很快会被刷新。明天可能是30小时,后天可能是300天。智能将像空气一样廉价,而「专注」也不再是人类的专属能力。

在这种历史性的挤压下,我们要追寻的不再是「我能做什么比AI更好」,而是「如果不为了结果,我为何而存在」。

Claude Mythos给人类文明开了一个巨大的玩笑:它以「神话」为名,却要把人类从神坛上请下来,送进名为「效率」的博物馆。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多