具身智能安全综述:13家顶尖机构联合研究深度解读
摘要
具身智能系统正从模拟环境迈向现实世界,其决策直接影响物理安全。近日,13家机构的38

具身智能(Embodied AI)正加速突破实验室的模拟环境,进入动态复杂的物理世界。
自动驾驶汽车在城市路网中自主导航,机械臂在产线上精准执行抓取与装配,服务机器人则深入医院、商场及家庭场景。与局限于文本交互的传统大模型不同,这些系统直接连接传感器、驱动执行器,其每一个决策都直接作用于物理世界,产生真实影响。
随之而来的,是一个更为严峻的挑战:当大模型开始驱动物理实体,过往“输出错误”的安全风险,将直接升级为“执行错误”的现实威胁。
对于聊天机器人,一段精心构造的越狱提示词,其危害可能仅限于生成有害文本;但对于控制机械臂、自动驾驶或服务机器人的系统,同样的攻击可能直接触发危险动作,造成不可逆的物理损伤。
近期,一项由复旦大学可信具身智能研究院、上海创智学院、香港城市大学等13家机构的38位学者联合完成的研究,发布了目前最系统的具身智能安全技术综述。这份长达70余页的报告,系统梳理了近480篇相关文献,为这一新兴领域绘制了清晰的风险与防御全景图。

综述的核心贡献,是提出了一个逐层递进的“五层能力圈”模型,用以界定具身智能系统:感知、认知、规划、行动与交互,以及最终的智能体(Agentic)系统。基于此,报告提炼出一个贯穿全文的核心洞察——
“能力—风险”二象性
简言之,系统每扩展一层能力,便同步新增一层攻击面;能力越强大,潜在的风险维度也越宽广。
这构成了整篇综述的分析框架。沿着这五层能力圈,安全风险正从“数字空间”向“物理世界”逐步演化:
- 在感知层(例如人脸识别门禁),攻击者主要针对传感器输入进行操纵;
- 当系统具备认知能力(例如博物馆导览机器人),攻击面便扩展至语言理解与视觉推理环节;
- 当系统具备规划与闭环决策能力(例如自动驾驶汽车),攻击者甚至可以干扰路径决策与实时控制逻辑;
- 当系统进一步具备复杂的物理交互能力(例如工业机械臂、人形机器人),错误的决策将直接转化为现实世界中的危险动作;
- 而当系统演化为具备记忆、工具调用与自主进化能力的智能体系统后,内层任何一个微小漏洞,都可能沿着能力栈被逐级放大。
这意味着,过去被孤立讨论的“对抗样本”、“后门攻击”、“越狱攻击”,在具身智能时代将不再是单点安全事件。它们会沿着“感知—认知—规划—行动”的能力链条传递与放大,最终从一次模型错误,演变为一场真实世界中的系统性事故。

图1:“能力—风险”二象性示意图。能力栈每扩展一层,攻击面便随之扩大一圈。
五层威胁全景:从感知到智能体
综述将分散的攻防研究,统一纳入上述能力框架,系统梳理了各层对应的核心攻击面与现实后果:
| 能力层 | 代表性攻击 | 真实世界后果 |
|---|---|---|
| 感知层 | 对抗样本、后门攻击、传感器欺骗 | 障碍物漏检、交通标志误判、雷达信号干扰 |
| 认知层 | 思维链劫持、推理后门 | 空间理解错误、上下文误解、语义推理偏差 |
| 规划层 | 任务越狱、轨迹中毒、决策操纵 | 不安全路径规划、违反控制指令、机器人闯入禁区 |
| 行动与交互层 | 控制对抗、人机交互后门 | 机械臂异常动作、车辆失控、安全协议被绕过 |
| 智能体系统层 | 工具/技能滥用、记忆投毒、级联失效 | 持久性不安全行为、隐私泄漏、跨任务污染、自进化失控 |

图2:具身智能五层能力栈中的攻击面与威胁分布。
不止于综述:填补研究空白与提供社区资源
与以往聚焦单一层面(如仅研究视觉语言模型的对抗鲁棒性,或只关注机器人导航的稳健性)的综述不同,这篇报告坚持一个核心立场:必须端到端地审视整个具身智能流水线,因为攻击会跨层级联。它不仅整合了具身智能特有的安全研究,还将视野拓展到更基础的视觉、语言、多模态模型安全领域,将“具身智能安全”置于更宏大的AI安全图景中。
报告特别指出了几个被低估的研究空白,每一条都指向一个独立的研究方向:
- 多模态融合的脆弱性:模态融合越多,安全复杂性越高,但目前缺乏针对融合层本身的攻防分析。
- 规划层在越狱攻击下的稳定性:当大语言模型作为规划器时,越狱的后果不再是“输出有害文本”,而是“开始执行有害任务”。
- 开放场景下的人机交互可信度:传统人机交互安全研究多基于闭合假设,而真实世界的对话是开放、动态的。
- 智能体系统的级联失效路径:记忆、工具、技能与自进化机制之间如何相互污染并导致系统性失效,目前缺少形式化分析框架。
此外,研究团队同步维护了一套完整的开放资源生态,包括持续更新的GitHub知识库、提供结构化浏览的项目主页,以及按双月节奏同步最新arXiv论文的机制。对于关注该领域的研究者而言,这份工作不仅是一篇文献综述,更是一张进入整个领域的“导航地图”。
结语:安全必须与能力同步设计
具身智能正在重塑人工智能与现实世界的连接范式。当一个模型不再只是“在屏幕上说话”,而是开始抓取、行走、操控、交互、记忆乃至自主进化时,安全问题也发生了根本性的范式转移。
过去,模型“说错一句话”,后果大多停留在数字空间;而在具身智能时代,一次感知偏差、一次规划错误或一次成功的越狱攻击,都可能沿着能力链最终演化为物理世界中的危险动作与系统性事故。这意味着,安全已经无法通过修补某个单一环节来解决,它必须成为贯穿感知、认知、规划、行动乃至智能体系统演化的底层设计原则。
而这正是这篇综述的核心主张:在具身智能时代,安全应当与能力同步设计,而非事后补救。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。