其他资讯具身智能安全综述

具身智能安全综述：13家顶尖机构联合研究深度解读

2026-05-25

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

具身智能系统正从模拟环境迈向现实世界，其决策直接影响物理安全。近日，13家机构的38

具身智能（Embodied AI）正加速突破实验室的模拟环境，进入动态复杂的物理世界。

自动驾驶汽车在城市路网中自主导航，机械臂在产线上精准执行抓取与装配，服务机器人则深入医院、商场及家庭场景。与局限于文本交互的传统大模型不同，这些系统直接连接传感器、驱动执行器，其每一个决策都直接作用于物理世界，产生真实影响。

随之而来的，是一个更为严峻的挑战：当大模型开始驱动物理实体，过往“输出错误”的安全风险，将直接升级为“执行错误”的现实威胁。

对于聊天机器人，一段精心构造的越狱提示词，其危害可能仅限于生成有害文本；但对于控制机械臂、自动驾驶或服务机器人的系统，同样的攻击可能直接触发危险动作，造成不可逆的物理损伤。

近期，一项由复旦大学可信具身智能研究院、上海创智学院、香港城市大学等13家机构的38位学者联合完成的研究，发布了目前最系统的具身智能安全技术综述。这份长达70余页的报告，系统梳理了近480篇相关文献，为这一新兴领域绘制了清晰的风险与防御全景图。

综述的核心贡献，是提出了一个逐层递进的“五层能力圈”模型，用以界定具身智能系统：感知、认知、规划、行动与交互，以及最终的智能体（Agentic）系统。基于此，报告提炼出一个贯穿全文的核心洞察——

“能力—风险”二象性

简言之，系统每扩展一层能力，便同步新增一层攻击面；能力越强大，潜在的风险维度也越宽广。

这构成了整篇综述的分析框架。沿着这五层能力圈，安全风险正从“数字空间”向“物理世界”逐步演化：

在感知层（例如人脸识别门禁），攻击者主要针对传感器输入进行操纵；
当系统具备认知能力（例如博物馆导览机器人），攻击面便扩展至语言理解与视觉推理环节；
当系统具备规划与闭环决策能力（例如自动驾驶汽车），攻击者甚至可以干扰路径决策与实时控制逻辑；
当系统进一步具备复杂的物理交互能力（例如工业机械臂、人形机器人），错误的决策将直接转化为现实世界中的危险动作；
而当系统演化为具备记忆、工具调用与自主进化能力的智能体系统后，内层任何一个微小漏洞，都可能沿着能力栈被逐级放大。

这意味着，过去被孤立讨论的“对抗样本”、“后门攻击”、“越狱攻击”，在具身智能时代将不再是单点安全事件。它们会沿着“感知—认知—规划—行动”的能力链条传递与放大，最终从一次模型错误，演变为一场真实世界中的系统性事故。

图1：“能力—风险”二象性示意图。能力栈每扩展一层，攻击面便随之扩大一圈。

五层威胁全景：从感知到智能体

综述将分散的攻防研究，统一纳入上述能力框架，系统梳理了各层对应的核心攻击面与现实后果：

能力层	代表性攻击	真实世界后果
感知层	对抗样本、后门攻击、传感器欺骗	障碍物漏检、交通标志误判、雷达信号干扰
认知层	思维链劫持、推理后门	空间理解错误、上下文误解、语义推理偏差
规划层	任务越狱、轨迹中毒、决策操纵	不安全路径规划、违反控制指令、机器人闯入禁区
行动与交互层	控制对抗、人机交互后门	机械臂异常动作、车辆失控、安全协议被绕过
智能体系统层	工具/技能滥用、记忆投毒、级联失效	持久性不安全行为、隐私泄漏、跨任务污染、自进化失控

图2：具身智能五层能力栈中的攻击面与威胁分布。

不止于综述：填补研究空白与提供社区资源

与以往聚焦单一层面（如仅研究视觉语言模型的对抗鲁棒性，或只关注机器人导航的稳健性）的综述不同，这篇报告坚持一个核心立场：必须端到端地审视整个具身智能流水线，因为攻击会跨层级联。它不仅整合了具身智能特有的安全研究，还将视野拓展到更基础的视觉、语言、多模态模型安全领域，将“具身智能安全”置于更宏大的AI安全图景中。

报告特别指出了几个被低估的研究空白，每一条都指向一个独立的研究方向：

多模态融合的脆弱性：模态融合越多，安全复杂性越高，但目前缺乏针对融合层本身的攻防分析。
规划层在越狱攻击下的稳定性：当大语言模型作为规划器时，越狱的后果不再是“输出有害文本”，而是“开始执行有害任务”。
开放场景下的人机交互可信度：传统人机交互安全研究多基于闭合假设，而真实世界的对话是开放、动态的。
智能体系统的级联失效路径：记忆、工具、技能与自进化机制之间如何相互污染并导致系统性失效，目前缺少形式化分析框架。

此外，研究团队同步维护了一套完整的开放资源生态，包括持续更新的GitHub知识库、提供结构化浏览的项目主页，以及按双月节奏同步最新arXiv论文的机制。对于关注该领域的研究者而言，这份工作不仅是一篇文献综述，更是一张进入整个领域的“导航地图”。

结语：安全必须与能力同步设计

具身智能正在重塑人工智能与现实世界的连接范式。当一个模型不再只是“在屏幕上说话”，而是开始抓取、行走、操控、交互、记忆乃至自主进化时，安全问题也发生了根本性的范式转移。

过去，模型“说错一句话”，后果大多停留在数字空间；而在具身智能时代，一次感知偏差、一次规划错误或一次成功的越狱攻击，都可能沿着能力链最终演化为物理世界中的危险动作与系统性事故。这意味着，安全已经无法通过修补某个单一环节来解决，它必须成为贯穿感知、认知、规划、行动乃至智能体系统演化的底层设计原则。

而这正是这篇综述的核心主张：在具身智能时代，安全应当与能力同步设计，而非事后补救。

来源：互联网

上一篇 MindVLA-U1 论文解读：语言模型如何重塑自动驾驶决策核心 下一篇 小学生作业辅导助手搭建指南：豆包AI家庭学习Bot全攻略

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

具身智能安全综述：13家顶尖机构联合研究深度解读

摘要

“能力—风险”二象性

五层威胁全景：从感知到智能体

不止于综述：填补研究空白与提供社区资源

结语：安全必须与能力同步设计

相关文章推荐