菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 清华大学团队发布AI驾考系统:全方位测评AI导航员的“世界模型考场”
其他资讯 AI模型

清华大学团队发布AI驾考系统:全方位测评AI导航员的“世界模型考场”

2026-05-11
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

想象一下,你开车从家去超市。在这个过程中,你的大脑不仅处理视觉信息,更在根据油门

想象一下,你开车从家去超市。在这个过程中,你的大脑不仅处理视觉信息,更在根据油门和方向盘的操作,持续预测下一刻的环境变化。这种基于自身动作预测世界响应的能力,是人类导航及一切物理交互的核心。

让机器掌握这种能力,是“世界模型”研究的核心目标。它并非简单的视频生成器,而是一个可交互的模拟环境:输入一张初始画面和一系列动作指令,它能生成从该视角执行这些动作后应看到的连续景象。一个优秀的世界模型,将成为训练自动驾驶系统、培养机器人乃至构建虚拟世界的强大引擎。

然而,该领域长期缺乏公认的评测基准来检验世界模型的真实水平。这如同各地驾考标准不一,难以客观比较学员在复杂路况下的驾驶能力。为解决这一“标准缺失”问题,清华大学联合东北大学与华南理工大学的研究团队,构建了名为iWorld-Bench的综合评测体系。相关研究已发表于2026年国际机器学习大会(ICML 2026),论文编号arXiv:2605.03941。

清华大学团队打造

一、现有评测体系的三大短板

在iWorld-Bench之前,主流评测方案存在三个关键缺陷:场景单一、指令不统一、核心能力缺失。

首先是场景多样性不足。多数数据集视角单一,集中于行人视角,如同驾考只测平直路面,忽略了无人机俯瞰、机器人巡检、车辆行驶等多视角下的复杂交互。现实世界的观察视角是多元的,旧有评测未能覆盖。

其次是动作指令不统一。不同模型接受的控制信号各异:有的理解自然语言,有的仅响应键盘编码,还有的需要输入精确的摄像机参数矩阵。让这些模型同场竞技,如同让使用不同语言的司机比拼同一赛道,结果缺乏可比性。

最后,也是最关键的,是对“空间理解”与“记忆”等核心能力的评测缺失。过往评测多聚焦生成视频的“画质”,却很少检验模型能否“按指令行驶”、是否具备“方向感”及“空间记忆”。特别是记忆能力——一个稳健的世界模型应能记住来路,在执行“前进-后退”这类对称动作后,返回的画面应与起点高度一致。这种空间一致性,正是此前评测的盲区。

二、构建多样化数据基础

建设iWorld-Bench的首要工程,是构建一个足够丰富和标准化的数据基础。

团队从两方面着手。一是“整合现有数据”,系统梳理了KITTI、Waymo、nuScenes等12个高质量公开数据集,涵盖自动驾驶、三维重建、机器人及无人机视角,总计超过23万段视频。研究团队投入大量精力,将这些格式各异的数据统一转换至同一套坐标与参数标准下。

二是“创建仿真数据”。团队在4个户外城市仿真器中,于18个高质量虚拟场景里,通过自动化程序采集了10万段1080P高清视频。为确保数据质量,设计了两阶段过滤流程,剔除存在单帧异常或时序不连贯的片段。

最终,合并数据总量达33万段视频,覆盖无人车、无人机、第一人称、机器人四种核心视角。环境条件涵盖户外9种天气与室内5种光照。团队调用GPT-4o为所有视频生成结构化描述标签,并引入多个大模型进行交叉验证,辅以人工审核,确保了标注的高可信度。

三、统一指令:动作生成框架

数据就位后,核心挑战在于如何让接受不同指令类型的模型公平比较。

团队的解决方案是构建一个“动作生成框架”,其核心如同建立一套“万能翻译词典”。他们首先定义了第一人称视角下所有可能的基本动作,分为平移(如前后左右)和旋转(如上下左右转动)两大类,各27种,组合形成一个包含729种动作的完整空间。

每种动作均标注了难度系数与有效性。最关键的是,框架为其中81种基础动作(聚焦于当前模型普遍支持的运动),建立了一个统一的编码映射词典。该词典能将同一动作,同步翻译成三种“语言”:供精密模型使用的摄像机参数矩阵、供键盘控制模型使用的独热编码、以及供语言模型理解的自然文本描述。由此,无论模型“听懂”哪种语言,系统都能发出同一指令,实现公平对比。该框架具备良好扩展性,未来可轻松接入新的指令模态。

四、六类任务,全面检验核心能力

基于统一的动作语言,团队从海量数据中精选2100段视频作为考题库,设计了六类共计4900个评测任务。

前四类是“动作控制”系列,按动作复杂度分为四个难度等级,从单自由度基础动作到四自由度复杂组合,总计4000个任务,专门考验模型执行指令的精准度。

第五类是创新的“记忆能力”测试。设计了一系列“来回动作”路径,例如“前进-后退”或“右转-左转”。理论上,执行完对称动作后应回到初始状态。这200个任务专门检验模型对空间结构的理解与记忆。

第六类是“摄像机跟随”测试,针对能接受精确参数输入的高端模型。直接使用700条真实摄像机轨迹驱动模型,检验其轨迹跟随精度。

五、九项指标,多维度量化性能

完备的评测需要客观的评分标准。iWorld-Bench设计了9个指标,从三个维度全面衡量模型性能。

视觉质量维度包含四个指标:图像质量(画面清晰度)、亮度一致性(明暗稳定性)、色温约束(色彩氛围稳定性)、清晰度保持(细节真实稳定性)。

轨迹跟随维度包含三个指标:运动平滑度(视频流畅度)、轨迹精准度(指令执行准确度)、轨迹容忍度(针对精密控制任务,对比生成轨迹与真实轨迹的误差)。

记忆能力维度包含两个指标:记忆对称性(执行对称动作后画面的一致性)、轨迹对齐(“去程”与“回程”运动方向的镜像对称性)。

六、十四模型同台评测,揭示领域现状与挑战

评测体系搭建完毕后,研究团队邀请了14个代表性世界模型参与评测。按控制方式可分为三组:5个接受文字指令的模型(如Cosmos-predict2.5)、2个接受键盘信号(独热编码)的模型(如Matrix-Game 2.0)、7个接受精密摄像机参数的模型(如CameraCtrl)。

评测结果揭示了深刻洞见。

在动作控制与记忆能力综合评测中,键盘信号控制的HY-World 1.5表现最佳,平均得分0.7873,尤其在轨迹跟随上优势明显。这印证了离散信号在控制精度上的优势——相比模糊的语义指令,明确的编码指令更利于精确控制。

文字控制组模型则呈现出“扬长避短”的特点。例如CogVideoX-I2V在亮度一致性上得分最高,但轨迹跟随能力较弱。这反映出“生成高质量画面”与“精确执行动作”之间存在内在张力。

摄像机参数控制组中,VideoX-Fun-WAN表现均衡,而AC3D在记忆对称性上得分突出(0.9068),显示其架构在维持空间拓扑一致性上有独特优势。早期模型如CameraCtrl则全面落后,体现了该领域快速迭代的进程。

一个关键发现来自基础模型与其微调版本的对比。例如,从CogVideoX-I2V微调而来的AC3D,轨迹跟随能力大幅提升,但视觉质量有所下降。这清晰揭示了当前世界模型训练的一个核心矛盾:增强可控性的训练,可能会以牺牲部分视觉生成能力为代价。

在专门的摄像机跟随任务中,AC3D全面领先,而ASTRA的轨迹容忍度则垫底。这再次说明,视觉质量和动作可控性往往是两个需要权衡的独立维度。

为确保自动指标的可靠性,团队还进行了人类偏好实验。结果显示,自动指标排名与人类评分排名高度相关(斯皮尔曼相关系数0.8053),证实了该评测体系的有效性。一个有趣的例外是AC3D,其客观排名第4,但人类偏好仅排第9。分析发现,尽管它的运动平滑度和记忆能力极强,但偏低的图像质量导致了观看时的不适感,这说明人类评价时对视觉质感的权重更高。

iWorld-Bench为这个快速发展的领域确立了重要的性能基准。它通过大规模、多样化的数据(33万段视频),公平全面的框架(统一动作编码、六类任务、九项指标),揭示了当前世界模型面临的深层挑战:视觉生成与动作服从难以兼顾,空间记忆能力普遍有限,模型性能分化显著。

这项工作的现实意义在于,它让我们更清晰地看到,那些未来可能服务于自动驾驶或家用机器人的“世界模型”,其距离真正理解并稳健交互于物理世界,尚有差距。现在,研究界终于有了一把公认的尺子,可以精准度量进展,指引更可靠的技术方向。


Q&A

Q1:iWorld-Bench评测的“世界模型”和普通视频生成AI有什么本质区别?

A:核心区别在于交互性与因果预测。普通视频生成AI是根据文本描述进行单向内容创作。世界模型则是可交互的物理模拟器:输入初始图像和一系列动作指令(如“向前走然后左转”),它需要预测并生成执行这些动作后应看到的连续画面。这种根据动作预测环境状态演化的能力,是世界模型的核心,也是iWorld-Bench的重点考查方向。

Q2:iWorld-Bench的记忆能力测试具体是怎么做的?

A:记忆测试的核心是设计“来回动作”路径,共10种对称动作配对,200个任务。例如,让模型先向前运动,再向后退回。理论上,动作结束后应回到起点附近的视觉状态。评测时,会从像素层面比较“去程”和“回程”对称时刻的画面是否一致(记忆对称性),并从运动方向层面检查两者是否互为镜像(轨迹对齐)。如果模型缺乏空间记忆,返回的画面就会与起点产生显著偏差。

Q3:iWorld-Bench评测中表现最好的世界模型是哪个,差距大吗?

A:在动作控制与记忆能力综合评测中,HY-World 1.5排名第一(平均分0.7873),MotionCtrl排名最后(0.5486),差距约22个百分点。在专为精密控制模型设计的摄像机跟随任务中,AC3D表现最佳(轨迹容忍度0.9091),ASTRA垫底(0.4286),差距超过47个百分点。这表明,不同模型在精密控制能力上的分化极为显著。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多