热点资讯

智元自研世界模型GE 2.0仅2B参数四两拨千斤成功登顶WorldArena权威排行榜

2026-05-31

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

智元自研世界模型GE2 0登顶WorldArena榜单，仅用2B参数击败英伟达等超大模型。其完整覆盖长

5 月 30 日，智元 AGIBOT 官方公众号宣布，具身智能领域热门榜单 WorldArena Track1（世界模型感知与动作响应赛道）最新评测结果揭晓，自研世界模型 Genie Envisioner-Sim 2.0（下称 GE 2.0）登顶榜首。

2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

世界模型本质上是一套能理解物理世界运行规律的 AI 系统。机器人一旦掌握这种能力，就能像人类一样预判杯子落地会碎、水流向低处、积木搭高会倒塌——这些常识不再是预编程指令，而是模型自主习得的“直觉”。

评测中，智元团队采用了“裸跑”策略：直接使用原生 GE 2.0 版本，未针对赛题进行任何定制优化，仅基于榜单数据做了一次基础微调。好比不穿特技装备参赛，最终仍拿下冠军。

GE 2.0 的一大突破在于首次完整覆盖长时序生成、多视角生成、本体状态生成、近实时推理与奖励判别等核心模块，构建起了世界模拟器所需的技术闭环。

以长时序推理任务为例，GE 2.0 的画面质量随推理时间延长衰减极低，明显优于行业基线方案。即使在连续推演 40 至 50 秒的长视频片段中，其生成画面仍超过基线模型前 10 秒的水平。这种稳定性在实际部署中至关重要。

团队还进行了大量闭环评测，结果表明 GE 2.0 在多项任务中与真实世界保持强相关性。除了宏观上的成功率一致性，他们还做了逐案（Case-by-case）的 rollout 结果对比，并借助混淆矩阵提供了量化证据，验证了 GE 2.0 作为策略评测器的可靠性。

技术亮点还包括：借助奖励模型，GE 2.0 可自动筛选闭环评测中的 rollout 过程，将世界模型产出的高质量数据精准回流至策略模型。实验表明，该机制在多项任务中显著提升了策略模型的性能。

据上观新闻报道，GE 2.0 与英伟达 DreamDojo、清华-斯坦福 Ctrl-World 等顶尖团队同台竞技并胜出。令人瞩目的是，它仅凭 20 亿（2B）参数模型就击败了英伟达、微软等超大参数旗舰模型。这印证了人形机器人赛道上，轻量化模型的适配性完全不逊于巨型参数模型。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。