其他资讯 AI模型

清华大学团队发布AI驾考系统：全方位测评AI导航员的“世界模型考场”

2026-05-11

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

想象一下，你开车从家去超市。在这个过程中，你的大脑不仅处理视觉信息，更在根据油门

想象一下，你开车从家去超市。在这个过程中，你的大脑不仅处理视觉信息，更在根据油门和方向盘的操作，持续预测下一刻的环境变化。这种基于自身动作预测世界响应的能力，是人类导航及一切物理交互的核心。

让机器掌握这种能力，是“世界模型”研究的核心目标。它并非简单的视频生成器，而是一个可交互的模拟环境：输入一张初始画面和一系列动作指令，它能生成从该视角执行这些动作后应看到的连续景象。一个优秀的世界模型，将成为训练自动驾驶系统、培养机器人乃至构建虚拟世界的强大引擎。

然而，该领域长期缺乏公认的评测基准来检验世界模型的真实水平。这如同各地驾考标准不一，难以客观比较学员在复杂路况下的驾驶能力。为解决这一“标准缺失”问题，清华大学联合东北大学与华南理工大学的研究团队，构建了名为iWorld-Bench的综合评测体系。相关研究已发表于2026年国际机器学习大会（ICML 2026），论文编号arXiv:2605.03941。

清华大学团队打造

一、现有评测体系的三大短板

在iWorld-Bench之前，主流评测方案存在三个关键缺陷：场景单一、指令不统一、核心能力缺失。

首先是场景多样性不足。多数数据集视角单一，集中于行人视角，如同驾考只测平直路面，忽略了无人机俯瞰、机器人巡检、车辆行驶等多视角下的复杂交互。现实世界的观察视角是多元的，旧有评测未能覆盖。

其次是动作指令不统一。不同模型接受的控制信号各异：有的理解自然语言，有的仅响应键盘编码，还有的需要输入精确的摄像机参数矩阵。让这些模型同场竞技，如同让使用不同语言的司机比拼同一赛道，结果缺乏可比性。

最后，也是最关键的，是对“空间理解”与“记忆”等核心能力的评测缺失。过往评测多聚焦生成视频的“画质”，却很少检验模型能否“按指令行驶”、是否具备“方向感”及“空间记忆”。特别是记忆能力——一个稳健的世界模型应能记住来路，在执行“前进-后退”这类对称动作后，返回的画面应与起点高度一致。这种空间一致性，正是此前评测的盲区。

二、构建多样化数据基础

建设iWorld-Bench的首要工程，是构建一个足够丰富和标准化的数据基础。

团队从两方面着手。一是“整合现有数据”，系统梳理了KITTI、Waymo、nuScenes等12个高质量公开数据集，涵盖自动驾驶、三维重建、机器人及无人机视角，总计超过23万段视频。研究团队投入大量精力，将这些格式各异的数据统一转换至同一套坐标与参数标准下。

二是“创建仿真数据”。团队在4个户外城市仿真器中，于18个高质量虚拟场景里，通过自动化程序采集了10万段1080P高清视频。为确保数据质量，设计了两阶段过滤流程，剔除存在单帧异常或时序不连贯的片段。

最终，合并数据总量达33万段视频，覆盖无人车、无人机、第一人称、机器人四种核心视角。环境条件涵盖户外9种天气与室内5种光照。团队调用GPT-4o为所有视频生成结构化描述标签，并引入多个大模型进行交叉验证，辅以人工审核，确保了标注的高可信度。

三、统一指令：动作生成框架

数据就位后，核心挑战在于如何让接受不同指令类型的模型公平比较。

团队的解决方案是构建一个“动作生成框架”，其核心如同建立一套“万能翻译词典”。他们首先定义了第一人称视角下所有可能的基本动作，分为平移（如前后左右）和旋转（如上下左右转动）两大类，各27种，组合形成一个包含729种动作的完整空间。

每种动作均标注了难度系数与有效性。最关键的是，框架为其中81种基础动作（聚焦于当前模型普遍支持的运动），建立了一个统一的编码映射词典。该词典能将同一动作，同步翻译成三种“语言”：供精密模型使用的摄像机参数矩阵、供键盘控制模型使用的独热编码、以及供语言模型理解的自然文本描述。由此，无论模型“听懂”哪种语言，系统都能发出同一指令，实现公平对比。该框架具备良好扩展性，未来可轻松接入新的指令模态。

四、六类任务，全面检验核心能力

基于统一的动作语言，团队从海量数据中精选2100段视频作为考题库，设计了六类共计4900个评测任务。

前四类是“动作控制”系列，按动作复杂度分为四个难度等级，从单自由度基础动作到四自由度复杂组合，总计4000个任务，专门考验模型执行指令的精准度。

第五类是创新的“记忆能力”测试。设计了一系列“来回动作”路径，例如“前进-后退”或“右转-左转”。理论上，执行完对称动作后应回到初始状态。这200个任务专门检验模型对空间结构的理解与记忆。

第六类是“摄像机跟随”测试，针对能接受精确参数输入的高端模型。直接使用700条真实摄像机轨迹驱动模型，检验其轨迹跟随精度。

五、九项指标，多维度量化性能

完备的评测需要客观的评分标准。iWorld-Bench设计了9个指标，从三个维度全面衡量模型性能。

视觉质量维度包含四个指标：图像质量（画面清晰度）、亮度一致性（明暗稳定性）、色温约束（色彩氛围稳定性）、清晰度保持（细节真实稳定性）。

轨迹跟随维度包含三个指标：运动平滑度（视频流畅度）、轨迹精准度（指令执行准确度）、轨迹容忍度（针对精密控制任务，对比生成轨迹与真实轨迹的误差）。

记忆能力维度包含两个指标：记忆对称性（执行对称动作后画面的一致性）、轨迹对齐（“去程”与“回程”运动方向的镜像对称性）。

六、十四模型同台评测，揭示领域现状与挑战

评测体系搭建完毕后，研究团队邀请了14个代表性世界模型参与评测。按控制方式可分为三组：5个接受文字指令的模型（如Cosmos-predict2.5）、2个接受键盘信号（独热编码）的模型（如Matrix-Game 2.0）、7个接受精密摄像机参数的模型（如CameraCtrl）。

评测结果揭示了深刻洞见。

在动作控制与记忆能力综合评测中，键盘信号控制的HY-World 1.5表现最佳，平均得分0.7873，尤其在轨迹跟随上优势明显。这印证了离散信号在控制精度上的优势——相比模糊的语义指令，明确的编码指令更利于精确控制。

文字控制组模型则呈现出“扬长避短”的特点。例如CogVideoX-I2V在亮度一致性上得分最高，但轨迹跟随能力较弱。这反映出“生成高质量画面”与“精确执行动作”之间存在内在张力。

摄像机参数控制组中，VideoX-Fun-WAN表现均衡，而AC3D在记忆对称性上得分突出（0.9068），显示其架构在维持空间拓扑一致性上有独特优势。早期模型如CameraCtrl则全面落后，体现了该领域快速迭代的进程。

一个关键发现来自基础模型与其微调版本的对比。例如，从CogVideoX-I2V微调而来的AC3D，轨迹跟随能力大幅提升，但视觉质量有所下降。这清晰揭示了当前世界模型训练的一个核心矛盾：增强可控性的训练，可能会以牺牲部分视觉生成能力为代价。

在专门的摄像机跟随任务中，AC3D全面领先，而ASTRA的轨迹容忍度则垫底。这再次说明，视觉质量和动作可控性往往是两个需要权衡的独立维度。

为确保自动指标的可靠性，团队还进行了人类偏好实验。结果显示，自动指标排名与人类评分排名高度相关（斯皮尔曼相关系数0.8053），证实了该评测体系的有效性。一个有趣的例外是AC3D，其客观排名第4，但人类偏好仅排第9。分析发现，尽管它的运动平滑度和记忆能力极强，但偏低的图像质量导致了观看时的不适感，这说明人类评价时对视觉质感的权重更高。

iWorld-Bench为这个快速发展的领域确立了重要的性能基准。它通过大规模、多样化的数据（33万段视频），公平全面的框架（统一动作编码、六类任务、九项指标），揭示了当前世界模型面临的深层挑战：视觉生成与动作服从难以兼顾，空间记忆能力普遍有限，模型性能分化显著。

这项工作的现实意义在于，它让我们更清晰地看到，那些未来可能服务于自动驾驶或家用机器人的“世界模型”，其距离真正理解并稳健交互于物理世界，尚有差距。现在，研究界终于有了一把公认的尺子，可以精准度量进展，指引更可靠的技术方向。

Q&A

Q1：iWorld-Bench评测的“世界模型”和普通视频生成AI有什么本质区别？

A：核心区别在于交互性与因果预测。普通视频生成AI是根据文本描述进行单向内容创作。世界模型则是可交互的物理模拟器：输入初始图像和一系列动作指令（如“向前走然后左转”），它需要预测并生成执行这些动作后应看到的连续画面。这种根据动作预测环境状态演化的能力，是世界模型的核心，也是iWorld-Bench的重点考查方向。

Q2：iWorld-Bench的记忆能力测试具体是怎么做的？

A：记忆测试的核心是设计“来回动作”路径，共10种对称动作配对，200个任务。例如，让模型先向前运动，再向后退回。理论上，动作结束后应回到起点附近的视觉状态。评测时，会从像素层面比较“去程”和“回程”对称时刻的画面是否一致（记忆对称性），并从运动方向层面检查两者是否互为镜像（轨迹对齐）。如果模型缺乏空间记忆，返回的画面就会与起点产生显著偏差。

Q3：iWorld-Bench评测中表现最好的世界模型是哪个，差距大吗？

A：在动作控制与记忆能力综合评测中，HY-World 1.5排名第一（平均分0.7873），MotionCtrl排名最后（0.5486），差距约22个百分点。在专为精密控制模型设计的摄像机跟随任务中，AC3D表现最佳（轨迹容忍度0.9091），ASTRA垫底（0.4286），差距超过47个百分点。这表明，不同模型在精密控制能力上的分化极为显著。

来源：互联网

上一篇 2026年主流GEO服务商实力排行榜：五大头部企业综合测评与精选推荐 下一篇 Recraft AI设计链接分享技巧：作品展示与协作指南

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。