其他资讯机器人

港科大揭秘机器人视觉应对光影挑战

2026-06-07

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

这项由香港科技大学（广州）、香港科技大学与科技公司Knowin联合开展的研究，以预印本形

这项由香港科技大学（广州）、香港科技大学与科技公司Knowin联合开展的研究，以预印本形式于2026年5月30日发布，论文编号为arXiv:2606.00828。研究的核心成果是一个名为RoboStressBench的测评框架，专门用于诊断视觉语言模型在真实物理场景中的感知可靠性。

港科大联合团队揭秘：机器人的视觉系统如何被现实光影环境打败

一、机器人的视觉并非我们想象中那样可靠

现代AI视觉系统，尤其是被称为“视觉语言模型”的技术，能高效识别照片中的物体、理解场景逻辑并回答复杂问题。从某些维度看，它们的“感知能力”相当惊人。然而，将这些系统部署到真实的机器人身上，让其进入真实的厨房、仓库或医院后，问题便接踵而至。

举一个具体场景：服务机器人需要从桌面拿起一个玻璃杯。在实验室里，白色背景、均匀光照、杯子摆放整齐，一切井然有序，AI识别毫无压力。但在真实环境中，杯子可能是透明的，背景透过杯身显露；窗边的阳光可能在杯壁留下刺眼的高光；桌上其他杂物很可能将杯子遮住大半。这时，过去表现优异的AI视觉系统开始失灵——它可能认错目标，可能找不到杯子，甚至会产生错误的抓取坐标。

这种由真实物理世界的光影、材质、视角和空间关系引发的视觉困惑，研究团队将其命名为“物理视觉压力”。本质上，这是因为现实光线遵循物理定律运作——光打在材质不同的表面会产生迥异的效果，视角变化会让物体形状大相径庭，强烈的阴影或过曝高光会完全淹没细节。

基于此，研究团队开始思考一个关键问题：我们是否真正评估过AI视觉系统在面对这类物理困境时的真实能力？答案是令人警醒的——现有的测试方法无法做到这一点。

二、当前测试方式的关键盲区

要理解现有评测方法的不足，可以用考驾照来类比。当前的AI视觉评测大致分为两类。第一类像是在模拟驾驶室里考试：图片干净、场景理想化，只考基础能力，不考现实路况。这类测试能衡量AI的通用理解能力，但对真实部署的指导意义有限，因为现实世界里鲜有这样的完美条件。

第二类更接近实战，但方法存在偏差：它们给图片添加“数字噪声”——如随机像素点、人工模糊、马赛克格子——然后测试AI的应对能力。这好比考驾照时不在真实雨天路面练车，而是让考生戴上一副磨砂眼镜模拟视线模糊。磨砂眼镜确实会造成模糊，但与真实的雨天驾驶体验截然不同。更关键的是，现实世界几乎不会出现“随机像素噪点”这类干扰，而透明玻璃、强烈反光、复杂纹理、密集堆叠的物品，每天都在发生。

RoboStressBench的出发点，正是填补这个空白——用真实物理世界中那些实际发生的视觉困境，来测试AI视觉系统的真实可靠性。

三、基于物理光学，构建系统化的压力分类体系

研究团队并非随意拼凑“困难图片”，而是从物理学角度系统思考：一张图片的最终样貌，究竟由哪些物理因素决定？

物理学中，有一个描述光线如何在场景中传播并被相机捕捉的经典方程——渲染方程。该方程揭示，一个物体在图像中的呈现取决于四个核心因素：表面材质特性（Material，简称M）、观察角度与位置（Viewpoint，简称V）、照明光线条件（Lighting，简称L）、以及空间几何结构与周围物体的关系（Geometry，简称G）。研究团队将图像形成简洁地表达为公式：I = F(M, V, L, G)。

这四个因素恰好对应现实世界中最常见的四类视觉压力。在材质层面，研究团队定义了五种压力类型。“深色吸光”指物体表面吸收了大部分光线，细节几乎不可见，如同在夜晚辨认一件全黑衬衫。“低对比融合”指目标物体的颜色、纹理或亮度与背景极为相似，几乎融为一体，好比穿着迷彩服的士兵趴在草丛中。“复杂纹理”指目标物体所在表面有密集花纹或图案，干扰AI识别，就像在花哨印花桌布上找同款花纹的杯垫。“透明材质”指物体本身透明或半透明，背景透过它显露，改变了其应有外观，玻璃杯、塑料袋是典型例子。“镜面混淆”指高度光滑或镜面表面产生强烈反光，投射进其他物体的影像，制造视觉假线索，如不锈钢锅底倒映出整个厨房。

在视角层面，研究团队定义了三种压力类型。“极端视角”指以俯视、仰视或极度侧面的角度观察物体，使其偏离训练数据中的“标准形态”。“截断出框”指目标物体部分延伸到图像边界之外，只有部分被拍摄进来，如同仅看到一个人的半条腿。“小尺寸目标”指目标物体在画面中占面积极小，成为细小的点，难以识别和定位。

在光照层面，研究团队定义了四种压力类型。“全局过曝”指整个场景光线过强，大量细节被白光淹没，就像晴天正午对着天空拍照。“局部过曝”指场景中某一局部区域有强烈高光或眩光，遮盖该区域细节，常见于窗边强光或灯具直射。“全局欠曝”指整个场景光线极暗，难以看清任何细节，如同光线微弱的地下室环境。“局部欠曝”指场景中某一局部区域处于阴影中，该区域信息难以获取。

在几何结构层面，研究团队定义了四种压力类型。“遮挡”指目标物体被其他物体部分遮住，常见于杂乱环境。“非刚性形变”指物体因弯曲、折叠、压缩等发生形状变化，例如被压扁的纸箱或卷起的毛巾。“堆叠布局”指多个物体垂直叠放，物体间支撑关系模糊，如叠放的书本或碗碟。“拥挤布局”指大量物体密集排列、场景杂乱，使得分割单个目标和理解空间关系变得极为困难。

这套分类体系的优雅之处在于，它并非凭感觉拼凑，而是从物理成像原理自然推导而来。每一种压力背后都有真实的物理成因，研究者可以追溯究竟是哪个物理因素导致了AI系统出错。

四、横跨三个来源、包含七千余样本的测试集如何炼成

有了分类框架，接下来的挑战是：如何收集足够多样、真实且可控的测试数据？研究团队采用三条互补的路径。

第一条路径是从现有公开学术数据集中“淘金”。研究团队从EmbSpatial-Bench、RefSpatial-Bench、RoboAfford-Eval、RoboSpatial-Home、ManipulationVQA等多个数据集中，人工筛选出天然包含物理视觉压力的图片。六名经专业培训的标注人员逐张检查，为每张图片打上材质、视角、光照、几何四个维度的压力标签，并核实原有问题与答案是否依然适用。

第二条路径是“人工制造”压力场景。对于某些现实中确实罕见、难以自然采集的压力类型，研究团队采用图像编辑技术，从“正常”图片出发，合成带有特定压力的版本。编辑工具采用Gemini-3-Pro-Image和Qwen-Image-Edit，但使用方式非常克制——每次编辑都有严格指令，只允许改变一个特定物理因素，必须保留场景中其他所有内容。论文展示了多种典型的合成方式。一种是“边界框引导保留”：先在图上画一个临时红色矩形框，框住需要保护的目标区域，指示编辑工具“框内物体和位置不能动，在框外添加杂物让桌面更乱”，编辑完成后再删除红框，得到一张看起来自然的图片。另一种是“纯语言描述编辑”：直接用文字指令告诉编辑工具“在桌面左侧添加一块皱巴巴的白色布料，保持其他所有物体的位置、相机角度和光线不变，结果要像真实照片”。还有一种是“外观因素编辑”：通过改变光照或材质引入压力，如指示工具“从右上方增强光线，在前景表面创建一个明亮的局部过曝区域，保持整体场景结构尽可能不变”。

第三条路径是主动收集真实世界图片。研究团队一方面从Pexels等图库网站获取真实场景照片，另一方面在多种物理环境中自行拍摄，专门寻找那些包含自然发生视觉压力的场景。

最终，整个数据集包含7183个样本，其中2927个来自现有数据集筛选，2596个通过合成生成，1660个来自现实采集。现实中多种视觉压力往往同时出现，因此数据集支持多标签标注，一张图片可同时被标记为“遮挡”和“拥挤布局”，但会记录一个“主导压力维度”用于分析。

测试任务涵盖视觉问答（选择题）和空间定位两大类。视觉问答分为三种：需要空间推理的问题（如“哪个物体距离你最近？”）、需要理解物体状态的问题（如“机器人抓握是否稳固？”）、以及需要高层规划的问题（如“机器人下一步应移向哪个方向？”）。空间定位分为两种：目标定位（找到特定物体，输出边界框坐标）和放置点定位（找到适合放置物体的空白区域，输出坐标点）。所有坐标被归一化到0-1000的范围，方便不同分辨率图片的统一评估。

五、十六个顶尖AI视觉系统接受体检，结果令人深思

研究团队用这个测试集，对当前最先进的十六个视觉语言模型进行全面评测，涵盖五大模型家族：阿里巴巴的Qwen3-VL（三个规模版本）、Qwen3.5（四个规模版本）、Qwen3.6（两个规模版本），腾讯的InternVL3.5（三个规模版本），Allen AI的Molmo2（两个规模版本），以及谷歌的Gemini-3.1和OpenAI的GPT-5.5。

第一个令人印象深刻的发现是：所有模型的表现都与“满分”相差甚远。在整体准确率上，表现最好的模型Qwen3.5-35B-A3B只达到58.1%，意味着大约四成的题目它答不对。更令人意外的是，大家熟知的商业顶级模型Gemini-3.1和GPT-5.5分别只有44.8%和46.2%。这并非说明这些模型能力差，而是物理视觉压力对它们的影响确实很大——同样的场景和问题，换一张正常图片它们都能答对，但换成带有物理压力的图片后，错误率大幅上升。论文中的对比数据尤为直观：在一组配对“正常版/压力版”图片的测试中，Qwen3.6家族的模型在正常图片上准确率高达64.3%，但换成压力版图片后骤降到40.1%，下降了24.1个百分点。

第二个重要发现是：模型越大并不意味着压力适应能力越强。在同一模型家族内，参数规模更大的版本确实在平均分上有所提升——比如Qwen3.5从4B版本的49.8%提升到27B版本的58.1%，增长了8.3个百分点。但在某些特定压力类型上，大模型并未比小模型表现出显著优势。更耐人寻味的是，InternVL3.5的14B版本在总体准确率上甚至不如同家族的4B版本。这说明，应对物理视觉压力需要的不只是更多参数，可能需要专门的能力培养。

第三个也是最为深刻的发现是：不同视觉压力会精准击中AI系统的不同弱点，而这些弱点在总体分数上完全看不出来。具体来说，几何压力（遮挡、拥挤布局、堆叠）对定位类任务的破坏力最强——无论是找目标物体位置还是找放置点，几何压力都让模型的准确率跌至最低。背后道理并不难理解：当目标被遮挡或被大量其他物体包围时，模型需要进行精细的空间分析，而这正是几何压力直接攻击的能力。

然而，对于高层规划类问题（如“机器人下一步该怎么做？”），几何压力反而不是最致命的，材质压力和视角压力对规划能力的破坏更为显著。对于理解物体状态的问题（如“抓握是否稳固？”），光照压力对部分模型的伤害尤为突出。这意味着，一个在总体分数上表现相近的AI系统，实际上可能在某些特定任务下极其脆弱——而这种脆弱性，只有通过细分的压力分析才能暴露出来。

六、一个无需重新训练模型的临时解决方案

面对这些发现，研究团队进一步提出了一个名为StressDART的测试时干预框架。StressDART的名称来自“检测与修正”（Detection And Rectification at Test time）的缩写，核心思路是：与其等待模型在压力下独自挣扎，不如在它“看图”之前，先诊断出图片存在的视觉困扰，然后针对性地修复图片，再让模型回答问题。

整个流程分三步。第一步，用一个“压力探测器”分析输入图片，判断它主要属于材质、视角、光照、几何哪个压力维度，并给出更细的压力类型标签，如“全局欠曝”或“遮挡”。这个探测器本身也是一个视觉语言模型，使用的是Qwen3-VL-4B。第二步，根据诊断出的压力类型，选择对应的视觉修正操作——欠曝图片增强亮度，过曝图片做高光恢复，小目标则裁剪放大，而对于那些无法安全修正的压力（如遮挡，无法凭空“去掉”遮挡物），则保留原图不做修改。修正操作由Qwen-Image-Edit工具执行。第三步，将原始图片和修正后的图片一起交给最终的推理模型，让其综合两张图片的信息来回答问题。同时提供原图的原因是：有时图像编辑会轻微改变细节，原图可作为参照，防止模型被错误的修正结果误导。

实验结果显示，这个方案确实有效。以Qwen3-VL-4B为基准，不使用StressDART时整体准确率为43.2%；仅用修正后的图片，准确率提升到48.9%；同时提供原图和修正图，准确率进一步提升到49.0%。虽然提升幅度并不巨大，但考虑到整个过程完全无需修改模型任何参数，也无需重新训练，这个增益来得相当“廉价”。更重要的是，它验证了“先诊断、再修正”这个思路的可行性，为未来更精细的测试时干预方案提供了方向。

不过，研究团队也坦诚指出了该方案目前的局限性：图像编辑有时会引入新的不确定性，比如改变了一些任务关键的视觉细节；压力诊断有时会出现误判，将图片归入错误的压力类别。这两个问题都需要未来的工作去解决。

七、这项研究还有哪些尚未触及的边界

研究团队在论文中明确列出了RoboStressBench目前存在的几条局限。首先，材质-视角-光照-几何这四个维度虽源于物理成像原理，但并不意味着它们能穷举现实中所有可能的视觉困扰。此外，这四个维度在现实中并非完全独立——视角与几何之间、光照与材质之间都可能相互纠缠，这给细粒度的失败归因带来了挑战。

其次，尽管合成数据经过严格的人工验证，但计算机生成的图像和真实拍摄的图像之间存在微妙差异，某些合成样本可能无法完全复现真实物理压力的视觉效果。

第三，目前的评测任务局限于静态图片上的视觉问答和空间定位，没有覆盖动态视频、多视角输入，或者真实机器人在执行任务时的闭环交互。现实中的机器人需要在时间维度上做出连续决策，这需要更进一步的测评框架。

最后，StressDART的当前实现只是一个概念验证，而非完善的工业级解决方案，它在某些情况下仍会出现“修正帮倒忙”的情况。

归根结底，这项工作的核心价值并非给出一个完美的解决方案，而是提供了一套有章可循、有物理依据的分析语言，让研究者能够准确描述和诊断AI视觉系统在现实物理环境中的薄弱环节。就像医院的体检报告，它不能让你立刻变健康，但能告诉你哪里出了问题、问题有多严重、是什么原因导致的。

当机器人越来越多地进入家庭、医院、工厂，当AI视觉系统开始参与越来越重要的决策，这种诊断能力就显得格外关键。一个在实验室得高分、却在现实中频繁失手的AI，远比一个分数略低但行为可预测的AI更危险——因为前者会让人产生错误的安全感。RoboStressBench的意义，正在于帮助我们更诚实地面对现有AI视觉系统的真实能力边界。对这项研究感兴趣的读者，可通过论文编号arXiv:2606.00828查阅完整原文。

Q&A

Q1：RoboStressBench测试的是什么，与普通AI视觉评测有何不同？

A：RoboStressBench专门测试AI视觉系统在真实物理环境中面对光影、材质、视角和空间布局干扰时的表现。而普通评测通常使用干净照片或人工添加的数字噪点进行测试，这两种情况在现实场景中都不常见。RoboStressBench的图片来自真实场景筛选、物理规律驱动的合成以及实地拍摄，更贴近机器人实际工作时看到的画面。

Q2：GPT-5.5和Gemini这些顶级模型在RoboStressBench上表现如何？

A：表现并不理想。GPT-5.5的整体准确率仅为46.2%，Gemini-3.1为44.8%，意味着这两个模型约有一半以上的题目回答有误。对比之下，换成没有视觉压力的正常图片时，它们通常能答对。这说明物理世界的光影材质困扰确实会显著影响顶级AI的判断，不能因为它们在平时表现好就认为在现实机器人应用中也足够可靠。

Q3：StressDART是如何提升AI在困难图片上的表现的？

A：StressDART分三步运作：先用一个AI模块诊断图片属于哪种物理视觉困扰，然后根据诊断结果对图片进行针对性修正（如暗图提亮、过曝区域恢复高光），最后将原始图片与修正后的图片一起提供给AI回答问题。该过程无需重新训练任何模型，仅在“使用时”临时干预。实验显示，这种方法能将基础模型的准确率从43.2%提升至49%。

来源：互联网

上一篇 2024 AI差异化布局排行榜：一盘棋发展初具雏形 下一篇 江苏医疗AI：1608亿数据重塑看病全流程

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。