其他资讯

空间智能权威榜单：ImageNet级评测与精选推荐

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

李飞飞团队发布空间智能新基准ESI-Bench，将AI评测从被动感知转向主动交互，要求智能体通

继ImageNet之后，李飞飞团队再次定义新标准，将评测焦点转向更具挑战性的具身空间智能领域。他们最新发布的ESI-Bench，是首个系统性评估智能体空间认知能力的基准，标志着从静态感知到动态交互的范式转变。

传统空间智能评测多基于“上帝视角”的完美观测。ESI-Bench的核心创新在于，它将智能体从“观察者”转变为“行动者”，首次完整闭合了“感知-行动”的交互回路。这一基准为具身智能领域提供了覆盖人类核心空间认知四大维度的系统性评估框架。

研究揭示了一个关键结论：当前AI在被动视觉识别上或许表现卓越，但距离具备“主动移动、交互并探索答案”的真实空间智能，仍存在显著差距。

ESI-Bench：从“被动看”到“主动探”

ESI-Bench的诞生，直指当前评测体系的根本缺陷：它们仅评估了被动感知能力。

向模型投喂静态图片，询问“A在B的左边还是右边”或“杯子的容量”——这类任务测试的更像视觉解析力，而非深层的空间推理。

人类如何解决空间问题？我们会主动起身，绕到物体后方观察；会伸手拉开抽屉检查内部；会通过倾倒液体来测量容积。这种通过主动交互获取关键信息的能力，才是空间智能的本质。

ESI-Bench的构建正是基于这一核心理念：必须将观察者转化为行动者。

在真实物理环境中，智能体必须像人类一样，自主决策下一步行动以收集证据，并基于新观测进行推理。研究团队将此定义为“感知-行动回路”。

ESI-Bench是一套全新的评测体系，包含10个任务类别、29个子类别，总计3081个任务实例。所有任务均在OmniGibson仿真平台上构建，场景素材源自BEHA VIOR-1K场景库。

所有任务设计围绕发展心理学家Elizabeth Spelke提出的四大核心知识系统展开，这些系统被认为是人类婴儿空间直觉的基础：物体表征、空间布局与几何、数量表征、目标导向行动。

该基准的关键设计是“行动强制”。每项任务都要求AI智能体必须通过主动交互才能获取足够信息来作答。模型无法被动接收图像，它必须自主决定移动方向、观察焦点、抓取对象及操作方式。

以“刚性容纳”任务为例：给定若干容器和物体，要求将所有物体装入。容器可能开口狭小、内部设有隔板，或需要打开盖子才能看清真实容量。

模型必须走近、俯身、甚至举起容器从底部观察，才能准确判断容纳可能性。

再如“液体体积”任务：两个外观完全相同的杯子，容量差异无法目测。模型需要倒水测试，或通过掂量重量来比较。

这些案例清晰体现了ESI-Bench的设计哲学：正确答案不存在于任何单张静态图像中，智能体必须通过主动行动与逻辑推理，才能拼凑出完整事实。

团队强调，ESI-Bench在三个方面实现了对先前工作的超越：

从空间感知到空间能力：评测焦点从“智能体感知到了什么”转向“智能体是否知道调用何种具体能力解决空间任务”。
选择性感知：智能体必须判断哪些观测值得获取，优先收集任务相关信息，过滤冗余或无关输入。
解决感知歧义：智能体必须能够透过具有误导性的观察进行推理，推断隐藏的空间结构及超越直接观测的潜在物理约束。

实测结果：三大核心发现

研究团队使用当前最先进的多模态大模型进行了全面测试，包括GPT-5和Gemini系列。

上图为核心实验结果，展示了ESI-Bench在被动感知、主动探索及“上帝视角”三种范式下的各项任务准确率，对比了2D+视觉语言模型、3D+大语言模型以及人类基线。

分析揭示了三个核心发现。

发现一：瓶颈不在“看”，而在“动”

首先是一个积极信号：主动探索策略确实有效。在无额外指令下，智能体自发涌现出多种空间探索策略，如绕至物体背后观察、切换俯视角度、拿起物体、倒出液体验证。

一个典型例证是，在“部分遮挡”任务中，若直接给予Gemini 3.1最佳观察视角，其准确率可从14.6%跃升至95.1%。这表明模型的感知能力本身并不弱，关键在于获得正确的视角。

但问题恰恰在于，模型无法自主找到那个正确视角。

更严峻的是，被动的“多视角”策略非但无效，反而有害。实验显示，让GPT-5观看多张随机角度图片，其在空间距离任务上的准确率从53.9%下降至49.1%。观测增多，性能反而下降。

GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数

团队将此现象命名为“动作盲视”：一次糟糕的行动选择导致一个无效的观测视角，而这个无效视角又会触发更差的后续行动，最终形成不可逆的级联失败。在“结构围合”任务上，主动探索策略与“上帝视角”下的性能差距高达49.7%。

这意味着，当前空间智能的主要瓶颈，可能并非视觉模型能力不足，而在于行动策略几乎处于空白状态。

发现二：不完美的3D，比2D更糟糕

既然2D被动观测存在局限，那么采用3D方案呢？这是当前许多具身智能团队的思路：先进行三维场景重建，再基于重建场景进行推理。

测试发现，若提供“真值3D”（即完美几何的上帝视角），性能确实强劲。例如在“材质透明”任务上，Gemini的2D版本得分为44.0%，3D版本则达到60.4%，提升16.4个百分点。在需要精确深度信息的任务上，3D grounding具备天然优势。

但若使用现有技术进行“真实重建”呢？团队采用先进的VGGT模型进行场景重建，再将结果输入推理模型。

结果令人震惊：在“几何配置”任务上，2D基线得分尚有27.5%，而VGGT重建后的场景图得分骤降至9.9%。

这表明，不完美的3D重建并非中性失败，而是具有负面效应的“毒药”。几何伪影、遮挡补全错误、深度估计偏差……将这些失真信息编码为场景图，等同于向推理模型投喂有毒输入。相比之下，2D图像虽信息有限，但至少保真；而质量不过关的3D重建，其效果可能不如朴素的2D图像。

发现三：元认知缺陷——模型不知道自己“不知道”

论文中一组对比实验，深入揭示了智能体与人类在空间推理能力上的本质差异。

研究发现，尽管存在感知差距，但这一差距可能小于普遍认知。在部分任务类别中，模型的被动表现甚至与人类持平或超越。例如，在“真实轨迹”条件下，Gemini在部分遮挡任务上准确率达88.4%，人类为87.4%；GPT-5在材质透明度任务上达96.3%，人类为97.2%。

然而，一旦切换到需要主动探索的场景，差距急剧扩大。人类凭借明确的观察目标和停止时机，表现远超模型，且其主动探索表现更接近“真实轨迹”下的被动表现。例如在“物理接触”任务中，人类准确率为88.3%，而GPT-5仅为64.2%；在“材质透明度”任务中，人类准确率为93.6%，Gemini 3.1则为52.3%。

通过分析探索轨迹，团队发现人类表现出更强的“认知谨慎性”：在做出判断前会收集更多观测，主动寻找可能证伪当前假设的视角，并在证据模糊时降低置信度。

而模型则倾向于过早停止探索。即便证据存在模糊性，模型也常在少数几步后即以高置信度做出判断，从而产生与场景状态矛盾的“空间幻觉”。