产业资讯超越专家预期榜单

Claude Mythos实测3小时6分，超越专家预期榜单

2026-06-05

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Anthropic的ClaudeMythos模型以80%成功率完成3小时6分钟自主任务，提前达到专家对2026年底的预测

刷新自主任务时长纪录！

Anthropic推出的Claude Mythos模型，以80%的完成率，将最长持续自主作业的纪录锁定在3小时6分钟。这一成绩恰好与超级预测者群体此前对2026年底的中位数预估——3到4小时——完全吻合。换言之，AI在长周期任务上的进化速度，已经压过了多数人的心理预期。

按Opus 4到Opus 4.5在ARC-AGI-2分数上的提升幅度推算，每次性能倍增所需的时间跨度和下一轮倍增的难度系数分别约为4个月和0.82倍。如果这条增长曲线成立，AI 2027报告中关于AGI/ASI的时间表，恐怕还要再往前压缩一段。

硅基觉醒，人类线性进化论崩塌

人类文明史上，我们曾无数次用工具延伸自身：杠杆延长了手臂，车轮放大了脚步，电力扩张了感官。但昨天，Anthropic实验室里那个名为Claude Mythos的数字体，触碰到了人类从未让渡的领地：意志的持续性。

当METR基准测试结果出炉，Claude Mythos以80%的成功率独立完成长达186分钟的复杂任务时，时间轴确实出现了裂缝。

这不止是一个技术指标。它更像一个关于「时间坍缩」的历史隐喻。

人类认知习惯里，惯于用「未来」对冲当下的焦虑。专家与超级预测者之间曾有一份默契：他们把「3至4小时自主长时程任务」这个里程碑，放在了2026年底。

这个预测本质上是人类为自己设置的心理缓冲——指望用30个月的窗口期去修法律护城河、改造教育体系、安抚职场恐慌。然而Mythos的出现，直接推倒了这堵墙。

当2026年的预言在2024年被提前兑现，AI的增长曲线不再是摩尔定律式的线性累加，而是一种「自催化」式的加速。人们原以为自己在攀登一座高山，却发现脚下的岩石正化作流沙，直接将人卷向终点。

这种「时间压缩」在历史上并非没有先例，但从未如此猛烈。工业革命用了百年才重塑全球权力格局，而AI仅用三个小时的「专注力」，就宣告了人类「适应期」的仁慈假象彻底终结。

AI加速，再加速！

这不只是Claude Mythos单个模型的胜利。它折射出整个AI能力曲线的跳跃式攀升。

回顾时间线：2020年GPT-2时代，模型只能完成几秒级的任务；到2026年5月，已经有人把80%成功率的任务时长干到了3小时以上。中间不过六年。更夸张的是，预测机构在2026年4月还给出了1.5小时的基线，结果两个月后就被现实打脸。

这说明，我们对AI进化速度的估算依然偏保守。

长时程自主任务的突破，直接效应就是将「AI Agent」从概念验证阶段，推入可规模化部署的实战阶段。

企业可以开始认真评估：那些需要人类工程师连续工作半天到一天的重复性、结构化任务，是否可以直接交给AI执行？个人开发者也可以想象，自己的「数字分身」能持续处理数小时的复杂需求，而自己只需要在关键节点把关。

但与此同时，安全、对齐、控制的问题也被同步推到了最前沿。一个能连续自主工作3小时的Agent，如果目标设定出错、如果被注入恶意指令、如果出现不可预见的涌现行为，后果会比现在严重一个数量级。我们正在把越来越多真实世界任务，交给仍在快速进化的系统。这既是机会，也是一场正在逼近的压力测试。

人类历史上很少有哪个技术能如此高频地将「预测」变为「现实」。从AlphaGo到GPT-4，从o1到现在的Mythos，每一次我们都觉得还要等几年的事，都来得比预期更早。

3小时6分钟不是终点。它只是新纪元的起点。专家判断，到2030年，AI将以80%的成功率完成八小时任务。

认知裂谷：乐观者的杠杆，多数人的荒漠

未来已来，但分布不均。

近70%的超级预测者对AI极度乐观，而公众的乐观比例仅为42%。

这个数据差足以令人警觉。这种鸿沟并非源于知识储备，而是源于对「权力杠杆」敏感度的差异。对顶尖专家而言，Mythos是「解决问题的终极工具」——它能将一个人的意志放大万倍。但在普通大众眼中，这种「长时程自主能力」带来的不是自由，而是「无用感」的制度化。

更为深刻的共识在于：专家与公众一致认为AI会削弱人际关系。这揭示了一个残酷事实：我们正在制造「冷酷的上帝」。当把解决问题的重任交给Mythos，人类之间的协作、磨合，乃至基于共同克服困难而产生的情感，都将被标记为「低效」。我们或许会迎来物质极度丰盛、难题悉数解决的时代，但那也将是一个「社交荒漠」的时代。当AI独立处理了那186分钟的复杂任务，它也顺便偷走了人类在共同劳作中产生的意义感。

结语：在历史的褶皱中，寻找「人」的剩余价值

当2026年的墙壁提前倒塌，我们该如何定义自己？

186分钟的纪录很快会被刷新。明天可能是30小时，后天可能是300天。智能将像空气一样廉价，而「专注」也不再是人类的专属能力。

在这种历史性的挤压下，我们要追寻的不再是「我能做什么比AI更好」，而是「如果不为了结果，我为何而存在」。

Claude Mythos给人类文明开了一个巨大的玩笑：它以「神话」为名，却要把人类从神坛上请下来，送进名为「效率」的博物馆。

来源：互联网

上一篇 英伟达Blackwell服务器2026年供应趋势与关键布局解析 下一篇 可灵头上缺云？权威测评5大遮风挡雨神器

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Claude Mythos实测3小时6分，超越专家预期榜单

摘要

硅基觉醒，人类线性进化论崩塌

AI加速，再加速！

认知裂谷：乐观者的杠杆，多数人的荒漠

结语：在历史的褶皱中，寻找「人」的剩余价值

相关文章推荐