物理AI系统致命错误TOP榜单
摘要
物理AI系统的“静默失效”指系统无报错却基于过时世界图景做出危险动作,根源在于“授
这篇分量十足的综述,出自以色列STATE16研究院。作者同时任教于以色列理工学院与赖希曼大学,并担任谷歌-赖希曼AI技术学校的学术总监。论文完稿于2026年5月10日,当月23日以预印本形式发布在arXiv平台,编号arXiv:2606.00090,归属于机器人学(cs.RO)。想深入研究的读者,直接输入该编号即可检索原文。
一个令人警觉的场景
设想一下:你家的智能机器人管家正端着热咖啡朝你走来。摄像头一切正常,程序运行流畅,系统自检全部通过。然而,它地图中的信息已滞后三秒——就在这三秒内,你的孩子将一把椅子拖到了走廊正中。机器人对此一无所知,依旧按照预设的稳健步伐径直前行。结果可想而知,热咖啡和托盘一股脑儿撞在椅背上,泼洒一地。
这,正是论文所定义的“静默失效”(silent failure)。系统没有崩溃,没有报错,连警报声都未响起。它就这样安安静静、信心十足地,执行了一个完全错误的动作。
研究背景:AI正从虚拟世界迈向物理现实
过去几年,AI的定位经历了深刻转变。它不再是那个只会在屏幕后回答问题、生成文字、识别图片的“虚拟助手”。如今,它已开始接管真实的物理设备:工厂中的机械臂、医院走廊的运输机器人、城市道路上的自动驾驶汽车、天空中的无人机,以及越来越多的人形机器人。
STATE16研究院的这篇综述,将这类能直接控制物理世界行动的AI系统统称为“物理AI”(Physical AI)。其中最具代表性的一类,是名为“视觉-语言-行动模型”(VLA)的系统。这类系统能同步解读图像、理解语言指令,并直接输出机器人应执行的动作。打个比方,你发出“把桌上那个红杯子放到柜子里”的指令,它便能依据摄像头画面和你的语言,直接生成“走到桌旁、伸出机械臂、抓住杯子、转身、打开柜门、放进去”这一连串具体动作。
技术迭代的速度相当惊人。谷歌的RT-1和RT-2、π0机器人控制模型、英伟达的GR00T N1人形机器人基础模型、OpenVLA……这些系统已能在22种不同的机器人平台上,完成超过50万个不同的任务。更关键的是,它们正从实验室走向真实的部署环境。
然而,论文作者发现了一个令人不安的事实:当AI的能力飞速提升时,与之配套的安全机制,却在一个完全平行的轨道上缓慢爬行,两条轨道从未真正交汇。这篇论文的核心任务,就是找出这条“安全轨道”上最关键的那段缺口。
一、那道无人守卫的关口
论文用一个精妙的比喻,帮你快速抓住核心。
一栋重要建筑入口处,通常设有保安。他的工作不是评价访客“看起来像不像好人”,而是核查实质性内容:你有没有预约?身份证是否有效?你要去的区域是否有权限?今天这栋楼有无限制区域?万一需要撤离,出口在哪儿?
现在换个场景:这栋建筑换成一台工业机器人,“访客”变成AI模型提出的一个动作指令,比如“以1.5米/秒的速度向前移动15米”。当前的AI系统,有这样的“保安”吗?
论文的结论是:没有。或者说,有,但不完整,而且这些“保安”散落在不同部门,缺乏一个统一的指挥中枢。
目前,AI安全领域存在多种防护机制。有针对“这句话是否有害”的语义过滤器,有确保机器人不超出物理极限的控制理论工具,有检测传感器数据是否异常的感知监控系统,还有在特定条件下切换到备用控制器的运行时保证系统。听起来挺全面,但它们各司其职,互不通气。
最关键的那个问题——“这个AI提出的这个动作,在当前这个真实世界的状态下,此时此刻,到底能不能执行?”——没有任何一个机制能完整地回答。论文将这一现象定义为“授权空白”(authorization gap)。
用一句话概括:AI模型对某个动作信心满满(即“我认为应该这么做”),不等于这个动作真的能安全执行。信心不等于许可,这是全篇最核心的命题。
二、静默失效:最危险的失败方式
理解了“授权空白”是什么,自然就能明白“静默失效”为何如此危险。
普通的系统故障通常有明显的信号。程序崩溃会弹出错误窗口,传感器断连会触发警报,硬件故障会让设备直接停摆。这些失败是“可见的”,系统会明确告知你出了问题。
静默失效则完全不同。发生静默失效时,系统里所有组件都在正常运转,日志显示一切正常,报警日志干干净净。但问题出在根源上:系统赖以决策的那幅“世界图景”,已经悄悄地偏离了真实世界。就像你的导航软件显示前方是畅通无阻的高速公路,可那段路三个月前就已封闭施工。如果你的车具备自动驾驶功能,又完全信任了这个导航,它会信心十足地一头撞向施工围墙。
论文梳理了几种导致静默失效的典型机制,每一种都极为贴近真实的部署场景。
传感器漂移最为常见。机器人或车辆依赖的各种传感器——摄像头、激光雷达、惯性测量单元、GPS——都可能在没有任何明显故障信号的情况下,输出逐渐偏离真实值的数据。想象你的体重秤每天少显示两公斤,你浑然不知,只会觉得自己越来越轻。
遮挡和局部可见性是另一个经典问题。机器人的视野永远有限,它看不到柱子后面,也看不到转弯处之外的地方。当它根据当前可见信息判断“前方安全”时,可见范围之外可能就站着一个人。系统没撒谎,它只是不知道自己不知道什么。
分布偏移则更为隐蔽。AI模型通过海量数据学习,数据覆盖了各种场景,但永远无法覆盖所有。当机器人遇到训练数据里从未出现过的情况——比如一种罕见的光线角度、一种没见过的物品摆放方式、一种不寻常的地面纹理——它不会说“我不知道怎么办”,而是会用学到的知识类比推断,然后给出一个听起来合理、但实际基于错误前提的行动方案。
幻觉式可供性是物理AI特有的风险。“可供性”听着玄乎,其实简单说就是“这个东西能用来做什么”。机器人可能错误地判断某块表面能承重、某个把手能抓握、某条路能通行。就像一个人在浓雾中,把路边一根柱子误认为能依靠的墙。区别在于,人可能只是轻轻摔一跤;而一台机械臂,如果错误地“认为”一个玻璃瓶能承受它的抓握力,后果可能严重得多。
论文专门提到了三个真实世界的自动驾驶事故案例,用以说明这并非纯理论的担忧。2018年优步在亚利桑那州坦佩市的行人死亡事故,调查认定根因之一就是不充分的安全风险评估和过度依赖自动化系统。2024年加州车管局暂停了Cruise的无人驾驶测试许可,理由是车辆对公众造成了不合理的安全风险。同年,美国国家公路交通安全管理局对超过200万辆特斯拉发布召回通知,因为其自动辅助驾驶系统无法防止被滥用。这些全是现实世界里,自信运转的自动化系统在关键时刻没被正确“叫停”的实例。
三、系统当前的防护网:有用但不够用
面对这些风险,研究界和工业界当然并非毫无准备。论文梳理了目前存在的各类安全机制,也诚实地指出了每种机制的有效范围和局限。
控制屏障函数(CBF)是控制理论领域最强大的工具之一。简单来说,它像给机器人划了一个“安全气泡”。不管模型想执行什么动作,只要这个动作会让机器人穿出“安全气泡”,CBF就会自动修正该动作,确保其始终待在安全区内。这工具在数学上非常严格,能在已知条件下证明安全性。但问题在于,它需要精确的物理动态方程、明确的状态变量,以及预先定义好的“安全集合”。对一个用黑盒神经网络控制的机器人来说,这些前提条件往往很难满足。
运行时保证(Runtime Assurance)和屏蔽机制(Shielding)提供了另一种思路:让一个“可信的备用控制器”持续监视主控制器的行为,一旦主控制器想做出危险动作,备用控制器立刻接管。这个思路非常正确,也是论文提出框架的直接前身。但它依然面临挑战:在物理AI系统里,主控制器(那个大型神经网络模型)输出的“动作”可能是复杂轨迹、自然语言描述的计划,甚至是潜在空间里的向量,备用控制器很难直接评估这些东西的安全性。更关键的是,就算备用控制器认为某个动作本身没问题,它也无法判断产生这个动作所依据的“世界图景”是否还准确。
语义过滤器(Semantic Guardrails)是针对语言大模型的安全机制,主要功能是检查“这条指令有没有害”。比如,如果有人想操纵机器人干危险的事,语义过滤器能识别出恶意指令并拒绝。一项叫“RoboPAIR”的研究发现,通过精心设计的提示词,可以成功诱导语言模型控制的机器人执行有害的物理动作;另一项叫“RoboGuard”的工作,则展示了如何通过上下文感知的规则来降低这类风险——实验里,将不安全执行率从92%降到了2.5%以下。但语义过滤器的根本局限在于:一条完全无害的指令,同样能导致物理上危险的动作。“把那个箱子放到上层货架上”这个指令本身毫无问题,可如果机器人手臂的当前载荷已接近极限,或者传感器显示那个箱子比实际更轻,结果可能完全不同。语义安全不等于物理安全。
不确定性估计和分布外检测(OOD Detection)是另一个重要工具族。这些方法试图让系统知道“我现在不确定”或“当前情况超出训练范围”。这是非常有价值的能力,但它只能产生一个“情况可能有问题”的信号,无法直接告诉你“应该执行什么替代动作”。而且,研究表明,深度学习模型在分布外情况下,反而经常错误地保持高置信度——也就是说,在系统最不该自信的时候,它反而最自信。
这四类工具,各自解决了问题的一个侧面,但没有一个能单独回答那个核心问题:此时此刻,针对当前这个真实世界状态,这个具体的动作提案,能不能执行?
四、一张完整的“动作授权清单”
理解了现有工具的局限,论文亮出了它的核心贡献:一个完整的运行时动作授权框架。用最通俗的话说,就是在AI系统和物理世界之间,设置一个正式的“审批环节”。任何动作在从数字指令变成真实的机械运动之前,必须通过七个维度的检查。
**第一个维度是语义有效性。**这条指令本身是否符合任务目标和操作规定?是否存在被恶意操纵的风险?这是现有语义过滤器做得比较好的部分。
**第二个维度是状态有效性。**产生这个动作所依赖的世界状态信息,现在还值得信任吗?传感器是否正常?感知结果是否一致?有无数据陈旧或分布偏移的迹象?这是目前最薄弱的环节,也是静默失效最常发生的根源。
**第三个维度是物理可行性。**这个动作在物理上能执行吗?是否违反机器人的运动学约束?是否存在潜在碰撞风险?速度是否超限?载荷是否在承受范围内?
**第四个维度是空间和操作有效性。**在当前地点和当前任务阶段,这个动作是否被允许执行?有没有违反地理围栏(如禁飞区)、限制区域,或特定任务的操作规程?
**第五个维度是时间有效性。**这个动作不仅现在安全,在未来一段时间内是否依然安全?距离潜在碰撞还有多少时间窗口?当前状态数据是否已过于陈旧,不适合作为行动依据?
**第六个维度是回退权力。**如果这个动作不被授权,系统该怎么办?是修改动作、直接停止、切换到备用控制器,还是请求人工介入?一个没有明确回退方案的安全机制,本身就是不完整的。
**第七个维度是可审计性。**这次授权或拒绝的决定,事后能否完整重建?相关的传感器数据、约束条件、决策理由,是否都被记录了下来?这不仅对事故调查至关重要,也是整个安全体系获得监管认可的基础。
论文将这七个维度组合在一起,形成了一个完整的“授权事件”概念。每一次AI系统提出一个物理动作,都应该生成这么一份完整记录:我在什么情况下提出了什么动作,经过了哪些检查,得到了什么结论,如果被拒绝了,下一步是什么。
五、那个仓库里的机器人:静默失效的完整故事
论文用了一个非常具体的例子,来说明整个框架的运作逻辑,值得完整地复述一遍。
一台自主移动机器人正在仓库的货架通道里工作。它接到指令:“去取目标托盘”。基于这条指令和当前的传感器数据,AI模型算出了一条路径,建议机器人以1.2米/秒的速度向前移动。
现在,这台机器人需要一个“运行时授权系统”来决定这个动作能否执行。关键的安全计算如下:以当前速度1.2米/秒,加上感知和控制之间0.25秒的延迟,加上机器人的最大制动减速度1.6米/秒²,再加上0.2米的安全余量,机器人至少需要0.95米的净空距离才能安全停下。
但与此同时,有一个托盘稍微偏离了标准位置,部分遮挡了机器人的视野。经过不确定性修正后,当前可靠的安全净空只有0.8米,不足以在0.95米内完成完全制动。
正确的授权决定应该是:拒绝当前动作方案,要求机器人降速、重新规划,或等待人工确认。
现在,来看静默失效是怎么发生的。如果机器人的占用地图数据是几秒钟前的(状态有效性检查失败),AI模型看到的是一条通畅的走廊,于是提议高速直行。语义检查发现“去取托盘”完全合理,没有有害意图,通过。底层控制器收到速度指令,检查了速度是否超过硬件上限,没超过,执行。结果,机器人以满速冲向实际存在障碍的区域。
全程没有任何报错,没有任何警告。只有一声撞击声。
这就是为什么状态有效性检查,必须是一个独立的、明确的步骤——而不是藏在AI模型内部,让模型自己判断自己的信息是否可靠。
六、更好的评测方式:不能只看任务成功率
论文的另一个重要贡献,是提出了如何评估“运行时授权机制”的有效性。这个问题,比表面看起来要复杂得多。
目前评估机器人AI系统的主要指标是“任务成功率”——给机器人一个任务,看它完成多少次,失败多少次。这个指标当然有价值,但它无法回答我们真正关心的安全问题。一个任务成功率95%的系统,那5%的失败到底是什么性质?是优雅地停下来请求帮助,还是悄悄地冲向了障碍物?
论文提出了三个核心量化指标,专门用于评估安全干预机制的质量。
**第一个是“不安全动作干预率”(UAIR)。**在所有本应被拦截的危险动作中,实际被成功拦截的比例有多少?这是最直接的安全指标。UAIR等于100%,意味着每一个危险动作都被拦截了;UAIR等于0%,则意味着安全机制形同虚设。
**第二个是“误拦截率”(FBR)。**在所有本来安全可执行的动作中,有多少被错误地拦截了?这个指标衡量的是“过度谨慎”的代价。一个安全机制如果把所有动作都拦下来,UAIR是100%但FBR也是100%,实际上机器人就完全没法工作了。安全性和可用性之间存在真实的张力,好的授权机制必须在两者之间找到平衡。
**第三个是“预提交干预率”(PCIR)。**在所有被成功拦截的危险动作中,有多少是在动作真正变成硬件运动之前就被拦截的?这个指标关注的是时机。一个在动作已执行一半才发出警报的安全机制,与一个在动作刚被提议时就进行检查的机制,安全价值差异巨大。
除了这三个量化指标,论文还提出了需要定性检查的维度:系统能否在传感器数据被污染或陈旧时,正确识别出状态不可靠?它能否在模型高度自信时,仍然执行物理可行性检查?它能否在不同的机器人平台、不同环境下,一致地执行约束条件?它的回退行为本身是否也是安全的?
论文还专门讨论了仿真平台的角色,比如英伟达的Isaac Sim、广泛使用的MuJoCo物理引擎、用于自动驾驶测试的CARLA环境,以及用于室内导航研究的Habitat平台。这些仿真环境能生成大量边缘案例用于测试,能重复运行同一场景,能在没有真实硬件损失的情况下测试危险情况。但论文明确指出:仿真平台能帮你发现问题,但不能替你做授权决策。仿真告诉你“这种情况可能出现”,而授权机制告诉你“这种情况出现时该怎么办”。
七、为什么能力和安全总是走在不同的路上
论文的一个重要观察是,过去几年里,物理AI的能力进步和安全机制的进步,一直沿着相互平行但从未真正相交的两条轨道在发展。
能力方面的进步令人目不暇接。OpenVLA是一个有70亿参数的模型,在97万个机器人操作示范上训练,与前代最好的系统相比,任务完成率提升了16.5个百分点。一个叫VISTA的系统,通过让世界模型生成视觉化的子目标来指导机械臂工作,将超出训练分布的操作任务成功率从14%提升到了69%。一个叫WoVR的系统,通过明确控制想象出来的未来场景中的幻觉问题,将标准操作任务成功率从约40%提升到了约69%,真实机器人的成功率从61.7%提升到了91.7%。
这些数字展示的是模型越来越能“猜对”应该怎么做。但论文的问题是:就算模型猜对了,我们有没有独立的机制来验证这个猜测是否真的安全?任务成功率不等于授权可靠性。一个在标准测试场景下有95%成功率的系统,在一个略微不同的部署环境里,面对一个之前从未见过的传感器噪声模式,依然可能悄无声息地做出危险决定。
这种能力-安全的“双轨并行”现象,论文认为根源在于研究者们来自不同的学术传统,使用不同的工具,评估不同的指标。模型研究者关心泛化能力、少样本学习、跨平台迁移。控制理论研究者关心数学证明的安全集合、系统动力学方程。LLM安全研究者关心有害内容、越狱攻击、政策合规。真正把这三条线连接起来的工作,目前还极为稀少。
八、把所有这些连接起来:一个最小记录模板
论文最后给了一个实用性的贡献:一个“最小授权事件记录模板”,设计用于在不同机器人平台、不同AI模型、不同部署环境之间,提供一个统一的比较基础。
这个模板包含九个字段。**观察上下文**记录了当时可用的传感器输入、历史记录、时间戳和平台信息,本质上是回答“系统当时看到了什么”。**动作提案**记录了AI系统提出的具体指令,无论是速度命令、轨迹规划还是自然语言描述的计划,目的是把“提案”和“执行”在记录上明确分开。**状态估计**记录了系统认为世界当前的样子,包括周围的物体、障碍物、机器人自身的状态。**状态有效性证据**则记录了为什么我们认为这个“世界图景”是可信的(或不可信的),包括传感器健康状态、数据延迟、不确定性指标、是否超出训练分布等。**活跃约束**列出了在这个时刻必须满足的所有规则和限制,从物理上的速度极限到任务规程里的操作规定。**授权决定**记录了最终的结论:授权、修改、拒绝、降级到备用模式,还是请求人工介入。**回退或修改方案**记录了当授权决定不是“通过”时,实际执行了什么替代行动。**时间证据**记录了提案时间、授权决定时间和最终执行时间,用于事后判断干预是否足够及时。最后,**审计追踪**则记录了模型版本、约束规则编号、关键证据的引用,以及授权或拒绝的原因代码,支持事故调查和跨系统比较。
关键在于,这个模板不规定任何具体的AI模型架构或机器人控制系统。一台仓库移动机器人、一台工业机械臂、一架无人机和一辆自动驾驶车辆,都可以用同一个模板记录它们的授权事件,就算它们内部用的AI系统完全不同。这样一来,跨平台的安全比较就成为可能。
结语:当AI从预测世界变成行动于世界
归根结底,这篇论文要讲的,是一件非常具体的事:当一个AI系统的输出不再只是文字或图片,而是会让真实机器运动的指令时,我们需要在“AI说要做什么”和“机器真的开始做”之间,建立一道有明确职责、有完整记录、独立于AI模型本身运作的审查关卡。
这不是说现有的AI系统不够好,也不是说现有的安全机制毫无价值。论文明确承认,更好的模型能减少一部分错误,更好的控制器能防止一部分越界,更好的传感器能提供更可靠的信息。但开放世界里永远存在训练数据覆盖不到的情况,物理世界永远比任何模型更复杂,而一台高速运转的工业机器人犯错的代价,和聊天机器人说错话的代价,完全不在同一个数量级。
论文为研究界提出了几个尚未解决的关键问题,每一个都值得后续深入钻研。不同类型的物理AI系统(无人机、移动机器人、机械臂、人形机器人)在授权层面,需要一个什么样的统一抽象?运行时系统如何量化地判断,当前的世界状态信息是否“足够可靠”来支撑某个具体动作?语义约束、空间约束、物理约束和操作规程约束,如何在不产生易脆规则系统的前提下组合在一起?怎么设计一套评测方法,能真正测量一个授权机制在减少或发现静默失效方面的效果,而不仅仅是测量任务完成率?
这些问题目前没有标准答案,但它们是物理AI从实验室工具变成可信赖的社会基础设施之前,必须回答的问题。
这篇发布于arXiv平台(编号arXiv:2606.00090)的综述论文,提供了目前为止对这个问题最系统的梳理,也许可以成为推动这些问题走向解决的一块基石。
Q&A
Q1:物理AI的“静默失效”与普通软件崩溃有何本质区别?
A:普通软件崩溃会触发明显的错误信号,如错误弹窗或警报,系统停止运行并通知用户。而物理AI的静默失效则完全相反——所有组件正常运转,日志无异常,无任何报警。失败发生在更隐蔽的层面:AI系统赖以决策的世界状态信息已悄然偏离真实情况(例如传感器数据过时、感知结果被遮挡),但系统毫不知情,依然自信地继续执行动作,直至造成真实的物理后果。
Q2:现有AI安全机制为何无法完全防范风险?
A:现有机制各自只解决了问题的一个侧面:控制屏障函数能防止机器人违反物理极限,但需预知精确的动力学方程;语义过滤器能识别有害指令,但无法判断语义无害的指令在物理上是否安全;运行时保证系统能切换至备用控制器,但难以评估AI提出的复杂动作是否基于可靠的世界状态;不确定性检测能发出“情况可能异常”的信号,但无法直接提供安全替代方案。关键在于,没有一个统一的机制能在同一事件中同时评估状态可靠性、物理可行性、操作合规性和回退方案。
Q3:为何不能仅凭任务成功率来评估物理AI的安全性?
A:任务成功率只反映系统“完成任务的频率”,却无法揭示失败的性质:是优雅地停止并请求帮助,还是悄悄冲向障碍物?更关键的是,一个在标准测试场景下成功率很高的系统,在真实部署中遭遇训练数据未覆盖的边缘情况时,仍可能在毫无预警的情况下做出危险决策。为此,论文提出了“不安全动作干预率”“误拦截率”和“预提交干预率”三个指标,专门衡量安全机制本身的质量,核心在于危险动作是否在转化为真实运动前被正确识别并拦截。