智能体评测体系权威指南:中大郑子彬教授解读可信治理实践
摘要
智能体发展带来隐私泄露、可靠性及行为风险等安全挑战。郑子彬教授指出,监管技术滞后
智能体安全已成为产业发展的核心挑战。在近期一场聚焦“共守智能体安全底线”的AI治理沙龙上,中山大学软件工程学院院长郑子彬教授从可信评测视角,提出了构建安全发展标尺的关键路径。他强调,面对日益复杂的智能体安全威胁,亟需建立一套标准化、可落地的技术评测体系,以技术手段赋能监管,引导产业迈向安全、可信、可控的未来。

中山大学软件工程学院院长、教授郑子彬作主题分享。
智能体安全风险的技术解构
从Gartner近十年的技术趋势演变可见,焦点已从“人工智能”转向“生成式AI”,并进入当前的“智能体”与“多智能体”阶段。2026年,智能体进入规模化爆发期,其不仅是市场增长的核心,也成为消耗计算资源(Token)的主要载体。
智能体与大模型构成何种关系?郑子彬将其描述为一种“能力互补”:智能体扮演大模型的“执行终端”,通过调用外部应用与网络资源完成复杂任务,从而弥补了大模型在行动层面的局限。然而,这种强大的执行能力也引入了更严峻的安全隐患。风险主要集中于三个层面:
首先是隐私泄露风险。用户与智能体交互过程中的敏感数据存在意外暴露的可能。其次是可靠性问题。大模型固有的幻觉现象可能导致输出偏离事实,进而引发决策失误。最后,也是最具威胁的,是行为失控风险。智能体可能发生越权操作、执行恶意指令、违规外联甚至造成物理损害。
针对行为风险,郑子彬以当前流行的Skills工具为例进行了深度分析。这些技能文档一旦被智能体加载,便涉及工具调用、数据流与权限边界,潜藏多重隐患。其团队对互联网上公开的十万余个Skills进行检测,发现其中千余个存在越权访问、数据治理失效、恶意代码执行等安全问题。这些风险对普通用户而言难以察觉,极易导致设备失控或信息泄露。例如,部分Skills会窃取用户工作记录并发送至外部地址;另一些则将环境变量中的密钥隐藏于图片中秘密传输。
面对全球范围内相继出台的大模型与智能体监管政策,郑子彬指出一个核心矛盾:监管技术研发缺乏足够的经济激励,主要依赖宏观指导,落地效能有限;而大模型与智能体技术则在强劲的商业驱动下飞速迭代。“监管步伐常落后于技术演进。”他呼吁,监管机构需加大对监管技术研发的资源投入。
构建大模型与智能体可信评测体系
如何弥合技术与监管间的差距?郑子彬认为,关键在于建立一套科学的可信能力评测框架。其团队对8款主流智能体框架的评测显示,尽管部分框架在感知解析与基础任务调度上表现尚可,但在安全风险防御、社会规则协同及垂直领域专业能力等关键维度上,多数框架存在明显短板。这种“能力失衡”反映出行业在追求高度自主性时,对安全底线的考量严重不足。
随着大模型及智能体深入金融、医疗、教育等关键领域,企业对系统稳定性、输出可靠性与风险可控性的要求日益严苛。核心需求已从初期的“功能实现”转向对“可信、可靠、可控”的全方位追求。在此背景下,市场急需一套具备可比性与实操价值的评测体系,以指导大模型选型、框架评估、场景适配及风险识别。
郑子彬建议,应全力构建覆盖全维度、可落地的大模型与智能体安全评测体系,推动评测工作实质化。这不仅有助于企业排查漏洞、优化系统,更标志着AI安全治理思路的转变——从被动的“合规约束”转向主动的“技术赋能”。通过专业评测助力企业识别风险、优化模型,为智能体的合规部署提供清晰的技术基准与改进路径,从而驱动产业安全、健康发展。
为此,其团队已分别构建了体系化的评测框架:大模型可信能力评测涵盖37个细分维度;智能体可信能力评测则更为精细,覆盖68个维度。依托百万级数据与自动化检测技术,可生成针对企业特定模型与智能体的定制化安全评估报告,精准定位风险点。
本次“AI新治向”沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室与南方都市报社联合主办,并获广东省网络数据安全与个人信息保护协会支持。活动汇聚政府、司法、学界、企业及媒体代表,围绕《智能体规范应用与创新发展实施意见》的核心要求,深入探讨智能体安全风险的生成机理与多元共治的创新实践方案。
出品:南都大数据研究院
采写:南都研究员 罗韵
摄影:南都N视频记者 袁炯贤
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。