其他资讯自然语言顶级蓝牙耳机终极选购

2024年顶级蓝牙耳机终极选购指南：权威测评与避坑榜单

2026-05-17

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

当前智能体系统的构建，高度依赖可复用的“技能”——这些将指令、控制流、约束条件与

当前智能体系统的构建，高度依赖可复用的“技能”——这些将指令、控制流、约束条件与工具调用封装成的独立单元，是实现任务发现、选择与复用的基石。然而，一个核心矛盾在于：绝大多数技能仍以“SKILL.md”这类长文本或README文档的形式存在。机器真正需要理解的结构化信号，被深埋在自然语言的描述之中。

这直接导致了下游系统的效率瓶颈。无论是从海量技能库中进行精准检索，还是在执行前评估第三方技能的数据泄露或权限提升风险，系统都不得不反复解析同一段文本，费力“猜测”其中隐含的调用接口、执行阶段和资源操作等本质不同的信息。研究界将此称为技能的“表示瓶颈”：语义上本应分离的属性，被强行压缩到了单一的文本表层。

[Figure 1: SSL表示总览]文本形式的技能通过源文档归一化器，被转换为三层结构：调度层记录调用级信号，结构层描述执行场景图，逻辑层记录原子操作与资源使用证据。生成的结构化视图与原始文档配对，共同支撑下游的技能发现与风险评估任务。

图片

从经典语言学知识表示到三层技能结构

针对这一瓶颈，一项研究提出了SSL（调度-结构-逻辑）表示方案。这是首个专为智能体技能设计的结构化表示方案，它将非结构化的技能文档映射为三层类型化的JSON图。其设计灵感，可追溯至Schank和Abelson的经典语言学知识表示理论。

调度层借鉴了MOP（记忆组织包）的思路，将技能视为一个调用级的能力单元来暴露关键信息：它能服务的用户意图、输入输出契约、以及粗粒度的依赖与控制流特征。这一层为每个技能建立了稳定的“能力档案”，使得在仓库级别进行比较和匹配时，无需展开完整的执行图。

结构层则借鉴了脚本理论，将技能组织为场景级的执行图。节点代表场景，边代表阶段间的转移。场景类型来自一个封闭词表，包括PREPARE（准备）、ACQUIRE（获取）、REASON（推理）、ACT（执行）、VERIFY（验证）、RECOVER（恢复）、FINALIZE（终结）等七种。这确保了不同技能的执行阶段结构可以直接进行对比分析。

逻辑层借鉴了概念依赖理论，将每个场景展开为源文档中有证据支撑的原子操作。每个逻辑步骤都会标注动作原语、资源范围、前置条件、效果和数据流绑定。动作原语包括READ、CALL_TOOL、TRANSFER等12种，资源范围则涵盖LOCAL_FS、CREDENTIALS、NETWORK等8类。

[Table 4: SSL各层核心字段]调度层暴露技能的路由与调用接口，结构层将技能表示为类型化执行阶段的序列或图，逻辑层记录有界的操作与资源使用事实，用于数据流检查和风险评估。

图片

[Table 5: SSL受限词表]列出场景类型（7种）、逻辑原语（12种）、资源范围（8种）和终止目标（4种）的封闭取值。

整个SSL方案遵循三个核心设计目标：紧凑性，只保留技能管理和使用所必需的证据；类型化，使用受限词表保证跨技能的可比性；源文档锚定，所有字段严格摘要自源文档中存在的证据，不推测任何隐藏行为。

归一化流水线：从SKILL.md到SSL

如何将现有的SKILL.md文件转换成这种结构化表示？研究采用了一个基于大语言模型的归一化器来完成这项工作。整个流水线分为四步：提取技能级记录、将文档分解为场景、将每个场景展开为源文档锚定的逻辑步骤、最后验证生成的图。

[Table 6: SSL归一化器的提示约束]四阶段流水线对应的提示约束，包括技能记录提取、场景分解、逻辑步骤展开、验证与校验，以及输出模式限制。

图片

验证环节区分了硬性结构校验和较软的语义检查。硬性校验包括JSON可解析性、标识符唯一性、枚举值合法性等；语义检查则关注场景输出是否有逻辑步骤绑定支撑等。未通过硬性校验的输出会被拒绝并重新生成；对于那些无法从源文档中找到确切证据锚定的字段，则选择留空或取最粗粒度的值，而非进行编造。

技能发现：结构化信号让检索MRR提升23%

理论设计的效果如何？研究收集并整理了6,184个公开可用的技能作为候选池，并从中采样生成了403条任务锚定查询，覆盖功能型、约束型、组合型、安全导向型和场景型五种风格。所有对比方法使用相同的嵌入模型和索引，仅改变输入给嵌入器的技能表示形式。

核心结果显著：采用简洁描述加上最丰富SSL视图的组合，取得了全指标最优的表现。平均倒数排名从仅用描述的0.573提升到了0.707，NDCG@5从0.593提升到0.727，Recall@10从0.744提升到0.896。消融实验显示，即便是浅层的归一化字段已能带来显著增益，而最丰富的SSL视图因加入了场景级和接口级信号，表现最佳。

一个关键发现是：即使将完整的源文档输入加上SSL增强，其效果仍弱于“简洁描述+SSL”的组合。这恰恰证明，精炼的结构化摘要比简单嵌入更长的原始文档要有效得多。

[Table 7: 按查询类型的MRR]在约束型查询上Desc + SSL-Rich的MRR达到0.749，在组合型查询上达到0.732，均大幅领先基线。

图片

风险评估：结构化证据让宏F1从0.744升至0.787

在风险评估任务上，研究从同一语料中分层采样了500个技能，并按数据泄露、破坏性行为、权限提升等六个维度进行人工标注。评估时固定使用同一个大模型作为判断器，仅改变输入给它的技能表示。

结果显示，“SKILL.md全文 + SSL”的组合视图取得了最佳的宏F1分数，相比仅使用纯全文有了明显提升。分维度来看，SSL在那些证据与显式操作、资源绑定紧密的维度上优势最大，例如破坏性行为、凭证访问和数据泄露。而在权限提升和资源滥用等需要更多叙事上下文来判断“能力是否真的构成风险”的维度上，全文表示仍有其竞争力。

[Table 2: 风险评估各维度F1]在固定DeepSeek评估器下，SKILL.md + SSL组合在数据泄露（0.858）、破坏性行为（0.850）、凭证访问（0.852）等维度表现最优。

图片

[Table 3: 跨阈值聚合结果]在主阈值(>1)下MD+SSL宏F1最优（0.787），在严格阈值(>=3)下全文SKILL.md最优（0.638），最低MAE来自两者组合（0.307）。

图片

这揭示了一种互补模式：SSL有助于快速识别非平凡风险信号的存在，但对于中等及以上严重程度的判断，则更依赖于对上下文的整体解读，而非仅仅依靠提取出的操作字段。

SSL是证据层，不是替代品

需要明确的是，研究团队指出，SSL不应被视为源文档的替代品。源文档仍然承载着示例、设计理由、安全防护措施、失败模式和维护指导等更丰富的上下文信息。在技能发现任务中，去除附带文本可以改善匹配精度；但在风险评估中，同样的压缩可能会隐藏一个危险操作究竟是假设性的、有确认保护的，还是已经嵌入人工审查流程中的关键信息。

论文也坦承了当前的局限：SSL从静态文档提取，无法捕获动态的运行时行为；归一化器可能遗漏事实或过度正则化；当风险来自技能生成的代码而非技能直接执行的操作时，SSL可能会误导下游判断。因此，研究者将SSL定位为“朝着更可检视、更可复用、更具操作性的技能表示迈出的实用一步，而非一个完成的标准或端到端机制”。

原文标题：From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

原文链接：https://arxiv.org/abs/2604.24026

来源：互联网

上一篇 OpenAI服务端Agent上下文压缩技术深度解析 下一篇 Spring Boot实战：手把手教你构建标准化MCP Server AI接口服务

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。