Meta与伯克利联手:AI三维空间理解新突破
摘要
现有视觉语言模型在三维空间理解上依赖数据统计捷径而非真实几何推理。GASP框架通过在
设想一下,我们如何引导儿童认知空间世界。一条路径是机械记忆:椅子高度标准45厘米,桌面宽度通常80厘米。另一条路径是培养空间直觉:让孩子从多个视角辨认同一把椅子,理解“前”与“后”的关系。前者见效快但脆弱——换一个房间,所有记忆瞬间作废;后者虽慢,但塑造的能力能适应任何陌生环境。
这个比喻精准揭示了当前人工智能在三维空间理解中的核心困境。现在的视觉语言模型(即能“看图说话”的AI)在回答各类问题时表现亮眼,但面对真实三维空间却常常束手无策。例如,询问“图中微波炉到摄像头的距离”或者“以这个视角看,门位于沙发的左侧还是右侧”,模型给出的答案往往令人哭笑不得。
该研究团队的核心洞察非常直接:现有解决方案几乎都选择了第一条路——机械记忆式的题海战术。他们提出的GASP框架,试图从根本上扭转这一局面,让AI真正建立对三维几何世界的内在感知。
一、现有方法为何像“刷题”而非真正理解
要理解GASP的价值,必须先厘清当前AI如何学习空间理解,以及这种学习方式的根本缺陷。
主流做法是收集海量三维空间问答数据集,对AI进行微调训练。数据集包含成千上万条记录:“这张图中,沙发距离门口2.3米”,“从该视角看,冰箱位于窗户左侧”。AI通过大量学习这类问答,逐步具备给出正确答案的能力。
表面看这很合理。但研究团队通过实验发现了一个令人担忧的现象:这些经过专项训练的AI,在它“见过”的数据集上表现优异,一旦迁移到新场景,性能便急剧下滑。例如,某个为VSI-Bench专门训练的模型,在该测试集上提升了十多个百分点,但换到另一个名为MMSI-Bench的测试集上,表现反而比训练前更差。
这让人联想到那些专攻某套模拟题的学生——他们能在那套试卷中拿到高分,但题目稍作变形便束手无策。原因很简单:他们学到的并非真正的数学或物理能力,而是那套试卷的答题套路。
研究团队还做了一个极具启发性的实验来揭示这一问题。他们从VSI-Bench的问答数据中统计各类物体的平均尺寸和平均房间大小,然后直接将这些平均值作为“提示”喂给模型。结果令人震惊:仅靠这些统计平均值,模型的“物体绝对距离估计”得分就从0.14飙升至0.61,甚至超过了某些经过专门三维问答训练的模型。
这表明,这类测试集中隐藏着大量“非视觉捷径”——AI根本无需真正解读图像,只需记住该数据集的统计规律就能获得高分。而那些经过大量刷题训练的AI,实际上恰恰学会了利用这些捷径,而非掌握真正的空间推理能力。
另一条现有路线是给AI配备专用三维视觉模块——相当于给普通人配上一套专业测距仪和三维扫描仪。这类方法虽然能提供更丰富的三维信息,但代价是模型更庞大、推理更缓慢,且这些模块通常固定不可调,与整体模型难以形成有效协同,就像给汽车装上不兼容的零件,两者很难真正默契配合。
二、问题的真正根源藏在AI内部哪里
研究团队没有止步于发现问题,而是深挖:AI的空间理解能力为何如此薄弱?问题究竟出在哪个环节?
现代视觉语言模型的工作流程大致如下:AI先用“眼睛”(视觉编码器)将图像转化为一串数字标记,再将这串标记与文字标记一起输入“大脑”(大型语言模型的变换器层),由后者综合处理后给出答案。
在大脑处理信息的过程中,有一个关键机制称为“自注意力”。简言之,该机制让大脑能判断“哪些信息与哪些信息相关”。对图像理解而言,视觉标记之间的相互关联尤为重要——大脑需要能识别出“帧1中的这个角落,与帧2中的那个角落,实际上是同一个物体”。
研究团队设计了一套诊断实验,专门测量AI内部的视觉对应关系识别能力:给AI展示同一场景的两帧画面,询问“帧1中的这个点,对应帧2中的哪个点”。这个任务乍一听简单,但即使对人类也需要一定的空间感。对AI而言,这一能力直接反映了它内部是否真正建立了视觉上的几何一致性。
测量结果令人瞠目:无论是Qwen2.5-VL-7B还是LLaVA-NeXT-Video-7B,这两个最先进的视觉语言模型,其内部对应点匹配的准确率普遍低于5%,许多层甚至接近于零。更糟的是,这些模型还表现出明显的“自信错了”特征:它们对错误答案往往信心十足,而对正确答案反而犹豫不决。这在统计上呈现为“置信度-准确率”之间的负相关——模型越自信,反而越可能犯错。
此外,测试还考察了模型的跨时间帧鲁棒性:当两帧之间的时间间隔逐渐增大时,匹配准确率如何变化?基线模型的表现几乎断崖式下跌,超过8帧距离后准确率跌至初始值的5%以下,基本等同于随机猜测。
这一诊断结果非常清晰:问题根源不在视觉编码器,而在大型语言模型的核心层。这些模型在训练时大量接触文本,构建了强大的语言理解能力,但对三维几何世界的内在规律毫无敏感性。单纯依赖刷空间问答题,只是在给这一根本缺陷贴创可贴,而GASP的目标是从内部真正修复它。
三、GASP的核心思路:像培养运动员一样训练AI的空间感
GASP的核心理念,类似体育训练中的“基本功训练”。优秀篮球运动员不是靠看录像记住“在这种情况下应该投篮”来提高的,而是通过无数次运球、传球、投篮练习,将球感和身体协调能力刻入肌肉记忆。GASP要做的,就是为AI设计一套针对空间感知能力的“基本功训练”。
具体而言,GASP在AI大型语言模型的每一个变换器层中,都插入一个轻量级的“对应点识别头”模块。该模块的作用是:接收该层的视觉标记,将它们映射到一个专为几何匹配优化的嵌入空间中,然后判断不同帧中的视觉标记是否对应同一个三维空间点。
这个模块仅在训练阶段存在。训练完成后,它会被彻底移除,模型恢复为标准的视觉语言模型,推理时无需任何额外的三维输入或辅助模块。几何理解能力已被“烙印”进模型内部的权重参数中。
训练数据来自DL3DV这个大规模三维视频数据集,并结合通用视频问答数据集,两者交替训练以防止AI“遗忘”原有的语言能力。从DL3DV数据中,研究团队生成了约175万个视频序列,每个序列包含8到24帧,并自动标注了帧间的精确对应点关系和深度信息,形成了一套兼具粗粒度(8×8网格)和细粒度(24×24网格)覆盖的训练标注。
四、GASP的两套“基本功”训练方案
GASP的训练使用两个互补的损失函数,分别针对空间理解中两个不同层次的挑战。
第一套训练针对“视角无关的视觉对应”。可以用这样一个场景来理解:你看到一只猫从不同角度拍摄的两张照片,虽然猫的姿势、光线、拍摄角度都不同,但你能一眼认出猫鼻子的位置在两张照片中是对应的。这种能力称为视角不变性。
GASP采用对比学习损失函数来训练这种能力。给定帧A中的一个点,以及帧B中该点真正对应的位置(正样本),还有帧B中其他所有不对应的位置(负样本),训练目标是使正样本的相似度分数尽可能高,负样本的分数尽可能低。选择对比学习而非直接预测坐标,是因为对比学习学到的视角无关嵌入空间能更好应对不同场景和视角的泛化需求。
第二套训练针对“深度一致性”,解决的是一个更微妙的三维歧义问题。考虑这样的场景:房间里有两张外观几乎一模一样的椅子,一张在前景,一张在背景。纯粹基于纹理和外观的匹配算法,可能会将前景椅子和背景椅子错误配对,因为它们看起来太像了。但从三维空间角度看,这两张椅子处于不同深度,压根不是同一个点的对应关系。
为了解决这类“视觉相似但三维位置不同”的混淆问题,GASP引入了深度一致性损失。其核心思路是:利用对应点匹配的软分布(即模型对每个候选位置的匹配置信度),计算期望深度值,然后与真实深度值对比。如果模型错误地将前景椅子配到了背景椅子,那么预测深度与真实深度之间会有明显差异,损失函数将惩罚这个匹配,迫使模型调整。该损失采用相对误差形式,使其对不同尺度场景(无论是小房间还是大厅)都能统一适用,无需每个场景单独校准。
这两套训练的目标是互补的:第一套教会AI“跨视角认出同一个东西”,第二套教会AI“不要被外表相似但空间位置不同的东西所迷惑”。两者结合,才能建立真正稳健的三维几何理解。
最终的总训练目标是三者之和:原有的语言建模损失,加上带权重的对应关系损失,加上带权重的深度一致性损失。这种多任务训练格局确保AI在学习几何感知的同时,不会丢失原有的语言理解能力。
五、从“内功”到“外功”:内部改进如何转化为实际能力提升
训练结束后,研究团队首先回到内部诊断层面,验证GASP是否真正改变了AI的内部几何表示。
在对应点匹配准确率方面,训练后的GASP模型相比基线有了天壤之别。以LLaVA-NeXT-Video-7B为例,基线模型各层的匹配准确率几乎全程贴近零线,而GASP训练后的模型在中层到深层出现了一个明显的准确率峰值,最高超过70%。Qwen2.5-VL-7B的情况类似,峰值出现在第25到28层。更重要的是,同时使用对应关系损失和深度一致性损失的完整模型,表现始终优于只使用对应关系损失的模型,这直接验证了深度监督的附加价值。
在置信度校准方面,基线模型的置信度与准确率之间呈现约负0.22的相关系数,意味着它越自信就越可能犯错。GASP训练后的模型将该相关系数翻转为约正0.62,意味着它的信心与实际的准确性高度匹配,这是行为上的根本性改善。
在跨时间帧鲁棒性方面,基线模型在超过8帧的时间距离后,准确率跌至初始的5%以下;而GASP模型即使在24帧的距离下,仍然维持着初始准确率的85%以上,展现出真正的时间不变性。
这些内部改进的最终考验,是能否转化为下游空间推理任务的实际能力提升。研究团队在三个主要基准上进行了评测。All-Angles Bench专门测试从不同视角理解场景的能力,VSI-Bench测试物体计数、路线规划、相对方向等综合空间推理能力,BLINK的空间子集则侧重于相对深度和多视角感知。
在All-Angles Bench的摄像机姿态估计任务上,LLaVA-NeXT-Video-7B的基线分数是22.7%,GASP版本提升到40.9%,绝对提升18.2个百分点;Qwen2.5-VL-7B从34.1%提升到52.8%,绝对提升18.7个百分点。在VSI-Bench的物体计数任务上,LLaVA-NeXT-Video-7B从23.5%跳升到52.5%,提升整整29个百分点;Qwen2.5-VL-7B从33.8%提升到41.6%,提升7.8个百分点。在BLINK的多视角推理子任务上,LLaVA-NeXT-Video-7B从42.1%提升到57.1%,提升15个百分点;Qwen2.5-VL-7B从41.5%提升到53.4%,提升11.9个百分点。
这些增益出现在一个额外重要的背景下:与GASP同数据量的“公平基线”(用相同DL3DV数据,但以问答形式训练)在多个关键指标上表现反而有所下降,例如摄像机姿态估计从22.7%降至19.8%,物体计数从23.5%降至21.4%。这再次证明,GASP带来的提升来自几何先验的注入,而非数据量的增加。
六、不牺牲“老本行”:对通用能力的影响
一个自然而然的担忧是:专门训练几何感知,会不会让AI遗忘原有的语言理解能力?
研究团队在Video-MME、TempCompass、NextQA等通用基准上进行了评测。结果显示,代价是存在但可以接受的:以Qwen2.5-VL-7B为例,NextQA分数从76.6%小幅降至74.7%,损失1.9个百分点。然而与此同时,Video-MME从59.3%提升到61.6%,TempCompass从68.4%提升到70.3%,这两个涉及时序理解的基准上反而有所进步。
这一现象背后有一个合理的解释:视频理解本身需要跨帧追踪物体的持续身份,即“这一帧里的这个杯子,和下一帧里的那个杯子是同一个”。GASP训练的视角不变性表征恰好也服务于这种需求。相比之下,NextQA更多考察动作语义和因果关系,对精确空间定位的依赖较少,这解释了为何在那里出现了小幅下滑。
在更宽泛的CV-Bench基准(同时测试2D和3D任务)上,Qwen2.5-VL-7B加上GASP后的综合得分达到79.8%,优于许多规模更大的模型,例如InternVL2.5-8B(74.1%)和LLaVA-OneVision-7B(73.2%)。
七、训练配置的精细调校
研究团队还系统地研究了两个关键训练参数对最终效果的影响。
第一个参数是LoRA秩。LoRA是一种高效微调技术,秩越高代表对模型改动的“维度”越多,可以理解为给AI学习新技能时分配的“练习纸”数量。实验表明,内部对应点匹配准确率随着秩的增加单调提升,但下游空间推理任务的性能有一个最优点,超过该点后反而会轻微下滑:对于LLaVA-NeXT-Video-7B,秩512时效果最佳,对于Qwen2.5-VL-7B则是秩128时最优。这说明过高的秩可能在提升几何拟合的同时开始损伤原有语言能力,两者之间存在真实的容量权衡。
第二个参数是对应点识别头插入的层范围。实验比较了在模型较浅层、中间层、较深层以及所有层分别插入的效果。结论是:在全部层都插入,表现最佳且最稳定。这一结果有其内在逻辑:几何一致性是分层次的——浅层需要学习边缘和角点的低级特征对应,中间层需要理解物体部件的对应,深层需要维持语义-几何的对齐。如果只在深层施加几何监督,浅层仍然会学习视角依赖的特征,在特征传递中形成“表示瓶颈”,限制最终效果。
八、GASP与位置编码的本质区别
研究团队特别说明了GASP与另一种常见技术——旋转位置编码(RoPE)之间的根本区别,因为这两者表面上都在处理“位置信息”,容易被混淆。
RoPE的作用是告诉AI“这个标记在图像网格中的位置是(x, y)”,它是一种输入级别的坐标信号,内容无关——无论该位置是一面空白墙还是一张复杂人脸,RoPE给出的信号完全相同。实验数据已经表明,即使使用了先进的RoPE,Qwen2.5-VL和LLaVA-NeXT的对应匹配准确率依然几乎为零,说明仅有坐标信息是不够的。
GASP作用于完全不同的层面:它通过训练改变了模型内部注意力机制中查询矩阵和键矩阵的相互作用方式,使得两个视觉标记之间的相似度分数不仅反映“它们在语义上是否相似”,还反映“它们在三维空间中是否对应同一个点”。从梯度传播的角度看,GASP训练产生的梯度会通过对应点识别头反向传播,逐步调整每个变换器层的Q和K投影矩阵,使得几何对应的标记对得分高,几何不对应的标记对(即使语义相似)得分低。
用一个类比来说:RoPE教会AI说“我在北纬39度、东经116度”,而GASP教会AI说“从这里和从那里看到的那栋楼,是同一栋楼”。前者是静态坐标,后者是动态的跨视角同一性认知。两者并非竞争关系,而是互补关系:RoPE提供“在哪里”的信息,GASP赋予AI“是什么、是哪个”的时空认知能力。
说到底,这项研究揭示了一个被长期忽视的根本问题:用大量空间问答题来训练AI的空间理解能力,就像让学生背诵地图数字来学习导航,终究只是表面功夫。真正的空间智能,应该来自对视觉世界几何一致性的内在感知——知道同一个物体从不同角度看起来依然是同一个,知道前景和背景的椅子尽管长得一样但处于不同深度。
GASP通过对应点学习和深度一致性训练,将这种几何感知能力直接“烙”进了AI的注意力机制中,而不是让它去背答案套路。更难得的是,这种内在能力的提升在推理时完全不需要额外的三维输入或辅助模块——AI用标准的图像输入就能工作,几何感知已经成为它思考方式的一部分。
当然,目前这项研究还有一些局限性值得关注。深度信息依赖于伪真值深度数据的质量,在一些特殊场景下可能不够准确;而且在以动作语义为主的任务上,几何训练会带来轻微性能损失,说明这两类能力之间存在容量权衡。未来的研究方向或许是将几何先验训练与适量的任务监督结合起来,取长补短,同时在更大规模的模型上验证这套框架的可扩展性。
归根结底,这项研究给出了一个值得深思的启示:让AI更聪明,有时候不是让它背更多题,而是教它更本质的能力。对于关心AI发展的读者,不妨思考这样一个问题:在其他需要“理解”而非“记忆”的AI任务上,是否也存在类似的根本性缺陷?
Q&A
Q1:GASP框架在推理时还需要额外的三维输入吗?
A:不需要。GASP的对应点识别头模块只在训练阶段存在,训练完成后会被彻底移除。推理时GASP模型与普通视觉语言模型完全一样,只接受标准的图像或视频输入,不需要任何深度图、点云或其他三维辅助数据。几何感知能力已经被编码进模型的权重参数中。
Q2:为什么视觉语言模型的对应点匹配准确率会那么低?
A:因为大型语言模型的预训练数据主要是网络文本,缺乏三维几何信息的直接监督。模型学会了语义理解,但没有建立跨视角的几何一致性认知。即使使用了旋转位置编码提供坐标信息,也只是静态坐标,无法告诉模型两帧中的同一物体是同一个实体。这是语言模型预训练本身的先天局限。
Q3:深度一致性损失和对应关系损失分别解决什么问题?
A:对应关系损失解决的是跨视角同一性问题,训练AI认出不同角度下同一个物体上的对应点。深度一致性损失解决的是前景-背景混淆问题:当两个外观相似的物体处于不同深度时,纯外观匹配会出错,深度损失通过惩罚深度不一致的匹配来强迫模型区分它们。两者互补,共同建立完整的三维几何理解。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。