港科大揭秘机器人视觉应对光影挑战
摘要
这项由香港科技大学(广州)、香港科技大学与科技公司Knowin联合开展的研究,以预印本形
这项由香港科技大学(广州)、香港科技大学与科技公司Knowin联合开展的研究,以预印本形式于2026年5月30日发布,论文编号为arXiv:2606.00828。研究的核心成果是一个名为RoboStressBench的测评框架,专门用于诊断视觉语言模型在真实物理场景中的感知可靠性。

一、机器人的视觉并非我们想象中那样可靠
现代AI视觉系统,尤其是被称为“视觉语言模型”的技术,能高效识别照片中的物体、理解场景逻辑并回答复杂问题。从某些维度看,它们的“感知能力”相当惊人。然而,将这些系统部署到真实的机器人身上,让其进入真实的厨房、仓库或医院后,问题便接踵而至。
举一个具体场景:服务机器人需要从桌面拿起一个玻璃杯。在实验室里,白色背景、均匀光照、杯子摆放整齐,一切井然有序,AI识别毫无压力。但在真实环境中,杯子可能是透明的,背景透过杯身显露;窗边的阳光可能在杯壁留下刺眼的高光;桌上其他杂物很可能将杯子遮住大半。这时,过去表现优异的AI视觉系统开始失灵——它可能认错目标,可能找不到杯子,甚至会产生错误的抓取坐标。
这种由真实物理世界的光影、材质、视角和空间关系引发的视觉困惑,研究团队将其命名为“物理视觉压力”。本质上,这是因为现实光线遵循物理定律运作——光打在材质不同的表面会产生迥异的效果,视角变化会让物体形状大相径庭,强烈的阴影或过曝高光会完全淹没细节。
基于此,研究团队开始思考一个关键问题:我们是否真正评估过AI视觉系统在面对这类物理困境时的真实能力?答案是令人警醒的——现有的测试方法无法做到这一点。
二、当前测试方式的关键盲区
要理解现有评测方法的不足,可以用考驾照来类比。当前的AI视觉评测大致分为两类。第一类像是在模拟驾驶室里考试:图片干净、场景理想化,只考基础能力,不考现实路况。这类测试能衡量AI的通用理解能力,但对真实部署的指导意义有限,因为现实世界里鲜有这样的完美条件。
第二类更接近实战,但方法存在偏差:它们给图片添加“数字噪声”——如随机像素点、人工模糊、马赛克格子——然后测试AI的应对能力。这好比考驾照时不在真实雨天路面练车,而是让考生戴上一副磨砂眼镜模拟视线模糊。磨砂眼镜确实会造成模糊,但与真实的雨天驾驶体验截然不同。更关键的是,现实世界几乎不会出现“随机像素噪点”这类干扰,而透明玻璃、强烈反光、复杂纹理、密集堆叠的物品,每天都在发生。
RoboStressBench的出发点,正是填补这个空白——用真实物理世界中那些实际发生的视觉困境,来测试AI视觉系统的真实可靠性。
三、基于物理光学,构建系统化的压力分类体系
研究团队并非随意拼凑“困难图片”,而是从物理学角度系统思考:一张图片的最终样貌,究竟由哪些物理因素决定?
物理学中,有一个描述光线如何在场景中传播并被相机捕捉的经典方程——渲染方程。该方程揭示,一个物体在图像中的呈现取决于四个核心因素:表面材质特性(Material,简称M)、观察角度与位置(Viewpoint,简称V)、照明光线条件(Lighting,简称L)、以及空间几何结构与周围物体的关系(Geometry,简称G)。研究团队将图像形成简洁地表达为公式:I = F(M, V, L, G)。
这四个因素恰好对应现实世界中最常见的四类视觉压力。在材质层面,研究团队定义了五种压力类型。“深色吸光”指物体表面吸收了大部分光线,细节几乎不可见,如同在夜晚辨认一件全黑衬衫。“低对比融合”指目标物体的颜色、纹理或亮度与背景极为相似,几乎融为一体,好比穿着迷彩服的士兵趴在草丛中。“复杂纹理”指目标物体所在表面有密集花纹或图案,干扰AI识别,就像在花哨印花桌布上找同款花纹的杯垫。“透明材质”指物体本身透明或半透明,背景透过它显露,改变了其应有外观,玻璃杯、塑料袋是典型例子。“镜面混淆”指高度光滑或镜面表面产生强烈反光,投射进其他物体的影像,制造视觉假线索,如不锈钢锅底倒映出整个厨房。
在视角层面,研究团队定义了三种压力类型。“极端视角”指以俯视、仰视或极度侧面的角度观察物体,使其偏离训练数据中的“标准形态”。“截断出框”指目标物体部分延伸到图像边界之外,只有部分被拍摄进来,如同仅看到一个人的半条腿。“小尺寸目标”指目标物体在画面中占面积极小,成为细小的点,难以识别和定位。
在光照层面,研究团队定义了四种压力类型。“全局过曝”指整个场景光线过强,大量细节被白光淹没,就像晴天正午对着天空拍照。“局部过曝”指场景中某一局部区域有强烈高光或眩光,遮盖该区域细节,常见于窗边强光或灯具直射。“全局欠曝”指整个场景光线极暗,难以看清任何细节,如同光线微弱的地下室环境。“局部欠曝”指场景中某一局部区域处于阴影中,该区域信息难以获取。
在几何结构层面,研究团队定义了四种压力类型。“遮挡”指目标物体被其他物体部分遮住,常见于杂乱环境。“非刚性形变”指物体因弯曲、折叠、压缩等发生形状变化,例如被压扁的纸箱或卷起的毛巾。“堆叠布局”指多个物体垂直叠放,物体间支撑关系模糊,如叠放的书本或碗碟。“拥挤布局”指大量物体密集排列、场景杂乱,使得分割单个目标和理解空间关系变得极为困难。
这套分类体系的优雅之处在于,它并非凭感觉拼凑,而是从物理成像原理自然推导而来。每一种压力背后都有真实的物理成因,研究者可以追溯究竟是哪个物理因素导致了AI系统出错。
四、横跨三个来源、包含七千余样本的测试集如何炼成
有了分类框架,接下来的挑战是:如何收集足够多样、真实且可控的测试数据?研究团队采用三条互补的路径。
第一条路径是从现有公开学术数据集中“淘金”。研究团队从EmbSpatial-Bench、RefSpatial-Bench、RoboAfford-Eval、RoboSpatial-Home、ManipulationVQA等多个数据集中,人工筛选出天然包含物理视觉压力的图片。六名经专业培训的标注人员逐张检查,为每张图片打上材质、视角、光照、几何四个维度的压力标签,并核实原有问题与答案是否依然适用。
第二条路径是“人工制造”压力场景。对于某些现实中确实罕见、难以自然采集的压力类型,研究团队采用图像编辑技术,从“正常”图片出发,合成带有特定压力的版本。编辑工具采用Gemini-3-Pro-Image和Qwen-Image-Edit,但使用方式非常克制——每次编辑都有严格指令,只允许改变一个特定物理因素,必须保留场景中其他所有内容。论文展示了多种典型的合成方式。一种是“边界框引导保留”:先在图上画一个临时红色矩形框,框住需要保护的目标区域,指示编辑工具“框内物体和位置不能动,在框外添加杂物让桌面更乱”,编辑完成后再删除红框,得到一张看起来自然的图片。另一种是“纯语言描述编辑”:直接用文字指令告诉编辑工具“在桌面左侧添加一块皱巴巴的白色布料,保持其他所有物体的位置、相机角度和光线不变,结果要像真实照片”。还有一种是“外观因素编辑”:通过改变光照或材质引入压力,如指示工具“从右上方增强光线,在前景表面创建一个明亮的局部过曝区域,保持整体场景结构尽可能不变”。
第三条路径是主动收集真实世界图片。研究团队一方面从Pexels等图库网站获取真实场景照片,另一方面在多种物理环境中自行拍摄,专门寻找那些包含自然发生视觉压力的场景。
最终,整个数据集包含7183个样本,其中2927个来自现有数据集筛选,2596个通过合成生成,1660个来自现实采集。现实中多种视觉压力往往同时出现,因此数据集支持多标签标注,一张图片可同时被标记为“遮挡”和“拥挤布局”,但会记录一个“主导压力维度”用于分析。
测试任务涵盖视觉问答(选择题)和空间定位两大类。视觉问答分为三种:需要空间推理的问题(如“哪个物体距离你最近?”)、需要理解物体状态的问题(如“机器人抓握是否稳固?”)、以及需要高层规划的问题(如“机器人下一步应移向哪个方向?”)。空间定位分为两种:目标定位(找到特定物体,输出边界框坐标)和放置点定位(找到适合放置物体的空白区域,输出坐标点)。所有坐标被归一化到0-1000的范围,方便不同分辨率图片的统一评估。
五、十六个顶尖AI视觉系统接受体检,结果令人深思
研究团队用这个测试集,对当前最先进的十六个视觉语言模型进行全面评测,涵盖五大模型家族:阿里巴巴的Qwen3-VL(三个规模版本)、Qwen3.5(四个规模版本)、Qwen3.6(两个规模版本),腾讯的InternVL3.5(三个规模版本),Allen AI的Molmo2(两个规模版本),以及谷歌的Gemini-3.1和OpenAI的GPT-5.5。
第一个令人印象深刻的发现是:所有模型的表现都与“满分”相差甚远。在整体准确率上,表现最好的模型Qwen3.5-35B-A3B只达到58.1%,意味着大约四成的题目它答不对。更令人意外的是,大家熟知的商业顶级模型Gemini-3.1和GPT-5.5分别只有44.8%和46.2%。这并非说明这些模型能力差,而是物理视觉压力对它们的影响确实很大——同样的场景和问题,换一张正常图片它们都能答对,但换成带有物理压力的图片后,错误率大幅上升。论文中的对比数据尤为直观:在一组配对“正常版/压力版”图片的测试中,Qwen3.6家族的模型在正常图片上准确率高达64.3%,但换成压力版图片后骤降到40.1%,下降了24.1个百分点。
第二个重要发现是:模型越大并不意味着压力适应能力越强。在同一模型家族内,参数规模更大的版本确实在平均分上有所提升——比如Qwen3.5从4B版本的49.8%提升到27B版本的58.1%,增长了8.3个百分点。但在某些特定压力类型上,大模型并未比小模型表现出显著优势。更耐人寻味的是,InternVL3.5的14B版本在总体准确率上甚至不如同家族的4B版本。这说明,应对物理视觉压力需要的不只是更多参数,可能需要专门的能力培养。
第三个也是最为深刻的发现是:不同视觉压力会精准击中AI系统的不同弱点,而这些弱点在总体分数上完全看不出来。具体来说,几何压力(遮挡、拥挤布局、堆叠)对定位类任务的破坏力最强——无论是找目标物体位置还是找放置点,几何压力都让模型的准确率跌至最低。背后道理并不难理解:当目标被遮挡或被大量其他物体包围时,模型需要进行精细的空间分析,而这正是几何压力直接攻击的能力。
然而,对于高层规划类问题(如“机器人下一步该怎么做?”),几何压力反而不是最致命的,材质压力和视角压力对规划能力的破坏更为显著。对于理解物体状态的问题(如“抓握是否稳固?”),光照压力对部分模型的伤害尤为突出。这意味着,一个在总体分数上表现相近的AI系统,实际上可能在某些特定任务下极其脆弱——而这种脆弱性,只有通过细分的压力分析才能暴露出来。
六、一个无需重新训练模型的临时解决方案
面对这些发现,研究团队进一步提出了一个名为StressDART的测试时干预框架。StressDART的名称来自“检测与修正”(Detection And Rectification at Test time)的缩写,核心思路是:与其等待模型在压力下独自挣扎,不如在它“看图”之前,先诊断出图片存在的视觉困扰,然后针对性地修复图片,再让模型回答问题。
整个流程分三步。第一步,用一个“压力探测器”分析输入图片,判断它主要属于材质、视角、光照、几何哪个压力维度,并给出更细的压力类型标签,如“全局欠曝”或“遮挡”。这个探测器本身也是一个视觉语言模型,使用的是Qwen3-VL-4B。第二步,根据诊断出的压力类型,选择对应的视觉修正操作——欠曝图片增强亮度,过曝图片做高光恢复,小目标则裁剪放大,而对于那些无法安全修正的压力(如遮挡,无法凭空“去掉”遮挡物),则保留原图不做修改。修正操作由Qwen-Image-Edit工具执行。第三步,将原始图片和修正后的图片一起交给最终的推理模型,让其综合两张图片的信息来回答问题。同时提供原图的原因是:有时图像编辑会轻微改变细节,原图可作为参照,防止模型被错误的修正结果误导。
实验结果显示,这个方案确实有效。以Qwen3-VL-4B为基准,不使用StressDART时整体准确率为43.2%;仅用修正后的图片,准确率提升到48.9%;同时提供原图和修正图,准确率进一步提升到49.0%。虽然提升幅度并不巨大,但考虑到整个过程完全无需修改模型任何参数,也无需重新训练,这个增益来得相当“廉价”。更重要的是,它验证了“先诊断、再修正”这个思路的可行性,为未来更精细的测试时干预方案提供了方向。
不过,研究团队也坦诚指出了该方案目前的局限性:图像编辑有时会引入新的不确定性,比如改变了一些任务关键的视觉细节;压力诊断有时会出现误判,将图片归入错误的压力类别。这两个问题都需要未来的工作去解决。
七、这项研究还有哪些尚未触及的边界
研究团队在论文中明确列出了RoboStressBench目前存在的几条局限。首先,材质-视角-光照-几何这四个维度虽源于物理成像原理,但并不意味着它们能穷举现实中所有可能的视觉困扰。此外,这四个维度在现实中并非完全独立——视角与几何之间、光照与材质之间都可能相互纠缠,这给细粒度的失败归因带来了挑战。
其次,尽管合成数据经过严格的人工验证,但计算机生成的图像和真实拍摄的图像之间存在微妙差异,某些合成样本可能无法完全复现真实物理压力的视觉效果。
第三,目前的评测任务局限于静态图片上的视觉问答和空间定位,没有覆盖动态视频、多视角输入,或者真实机器人在执行任务时的闭环交互。现实中的机器人需要在时间维度上做出连续决策,这需要更进一步的测评框架。
最后,StressDART的当前实现只是一个概念验证,而非完善的工业级解决方案,它在某些情况下仍会出现“修正帮倒忙”的情况。
归根结底,这项工作的核心价值并非给出一个完美的解决方案,而是提供了一套有章可循、有物理依据的分析语言,让研究者能够准确描述和诊断AI视觉系统在现实物理环境中的薄弱环节。就像医院的体检报告,它不能让你立刻变健康,但能告诉你哪里出了问题、问题有多严重、是什么原因导致的。
当机器人越来越多地进入家庭、医院、工厂,当AI视觉系统开始参与越来越重要的决策,这种诊断能力就显得格外关键。一个在实验室得高分、却在现实中频繁失手的AI,远比一个分数略低但行为可预测的AI更危险——因为前者会让人产生错误的安全感。RoboStressBench的意义,正在于帮助我们更诚实地面对现有AI视觉系统的真实能力边界。对这项研究感兴趣的读者,可通过论文编号arXiv:2606.00828查阅完整原文。
Q&A
Q1:RoboStressBench测试的是什么,与普通AI视觉评测有何不同?
A:RoboStressBench专门测试AI视觉系统在真实物理环境中面对光影、材质、视角和空间布局干扰时的表现。而普通评测通常使用干净照片或人工添加的数字噪点进行测试,这两种情况在现实场景中都不常见。RoboStressBench的图片来自真实场景筛选、物理规律驱动的合成以及实地拍摄,更贴近机器人实际工作时看到的画面。
Q2:GPT-5.5和Gemini这些顶级模型在RoboStressBench上表现如何?
A:表现并不理想。GPT-5.5的整体准确率仅为46.2%,Gemini-3.1为44.8%,意味着这两个模型约有一半以上的题目回答有误。对比之下,换成没有视觉压力的正常图片时,它们通常能答对。这说明物理世界的光影材质困扰确实会显著影响顶级AI的判断,不能因为它们在平时表现好就认为在现实机器人应用中也足够可靠。
Q3:StressDART是如何提升AI在困难图片上的表现的?
A:StressDART分三步运作:先用一个AI模块诊断图片属于哪种物理视觉困扰,然后根据诊断结果对图片进行针对性修正(如暗图提亮、过曝区域恢复高光),最后将原始图片与修正后的图片一起提供给AI回答问题。该过程无需重新训练任何模型,仅在“使用时”临时干预。实验显示,这种方法能将基础模型的准确率从43.2%提升至49%。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。